Die richterliche Zumessung der Strafe ist geprägt von weiten Ermessensspielräumen und ihr haftet – nicht gänzlich unberechtigt – eine gewisse Unvorhersehbarkeit an. Mit vorliegendem Beitrag wird dargelegt, wie die Künstliche Intelligenz einen Beitrag für eine rechtsgleiche und somit gerechtere Strafzumessung leisten kann.
Seit das Unternehmen OpenAI mit ChatGPT Ende November 2022 ein leicht zugängliches und damit massentaugliches Large Language Model veröffentlicht hat, befindet sich die Künstliche Intelligenz (KI) auf einem Siegeszug. Sie durchdringt zunehmend sämtliche Bereiche des gesellschaftlichen Lebens und hat mittlerweile sogar geopolitische Relevanz erlangt. Auch die Justiz kann sich diesem Trend nicht entziehen und sieht sich mit dem Versprechen gesteigerter Effizienz durch den Einsatz von KI konfrontiert. Es überrascht daher nicht, dass zunehmend Überlegungen angestellt werden, wie KI in der Justiz sinnvoll eingesetzt werden kann und unter welchen Voraussetzungen ihr Einsatz im richterlichen Entscheidungsprozess zulässig ist.
Der vorliegende Beitrag zeigt auf, wie die KI genutzt werden kann, um zu einer gerechteren Strafsanktionierung beizutragen.1 Dazu wird in einem ersten Teil aufgezeigt, welche Herausforderungen bei der Ausübung der Strafzumessung bestehen (I.), um darauf aufbauend darzulegen, wie diese durch den Einsatz der KI besser bewältigt werden können (II.). Abschließend wird begründet, warum die häufig geäußerten Bedenken gegen den Einsatz von KI in der Justiz für die hier vorgeschlagene Anwendung nicht zutreffen (III.).
I. Herausforderungen der Strafzumessung
Die Herausforderungen der Strafzumessung in der richterlichen Praxis werden an dieser Stelle als bekannt vorausgesetzt und daher im Folgenden nur grob skizziert.2 Ähnlich wie in der Schweiz – an deren gesetzlichen Grundlagen sich eine ausführlichere Erstfassung3 des vorliegenden Beitrags orientierte – sind auch in Deutschland die Strafrahmen in der Regel weit gefasst und die gesetzlichen Vorgaben für die Strafzumessung innerhalb dieser weiten Rahmen werden in § 46 StGB nur unbestimmt formuliert. Zwar haben Rechtsprechung und Lehre das gesetzlich vorgegebene Programm der Strafzumessungskriterien und -methodik durchaus weiterentwickelt. Wie aber die auf diese Weise festgestellte Tat- und Schuldschwere in ein numerisches Strafmaß „umgemünzt“ werden soll, bleibt weitgehend der Praxis überlassen.4
Dass (selbst sachkundige) Entscheidungsträger bei großen Spielräumen zu sehr disparaten Ergebnissen kommen und sich dabei von sogenannten Ankern – im vorliegenden Kontext den Sanktionsanträgen der Verfahrensparteien – (ver)leiten lassen können (sogenannter Streu- und Ankereffekt), ist konkret am Beispiel der Strafzumessung bereits mehrfach aufgezeigt worden.5 Empirische Untersuchungen offenbaren, dass die Praxis der Strafzumessung je nach Region, je nach Richterpersönlichkeit oder gar je nach deren aktuellem Empfinden zum Zeitpunkt der Urteilsfällung erheblich variiert.6 Allein der Zufall, wer auf der Richterbank sitzt, kann das ausgefällte Strafmaß erheblich beeinflussen, was angesichts der Bedeutung der Strafe für das Leben der betroffenen Person eigentlich ein unerträglicher Zustand ist.
Es stellt sich daher die berechtigte Frage, ob der durch die gesetzlichen Vorgaben kaum eingeschränkte gesetzliche Beurteilungsspielraum nicht der Willkür Tür und Tor öffnet. Selbst die Begründungspflicht nach § 267 StPO vermag nicht zu verhindern, dass – bewusst oder unbewusst – unzulässige Gründe (wie Geschlecht, sozialer Status, Nationalität oder Herkunft einer Person; Restzweifel in Beweisfragen; Vorbehalte gegenüber gesetzgeberischen Kriminalisierungsvorentscheidungen) verdeckt in die Strafzumessung einfließen oder dass grundsätzlich legitime Strafzumessungsgründe (wie das Auftreten und Verhalten des Angeklagten in der Hauptverhandlung) ein unzulässig hohes Gewicht bei der Sanktionierung erlangen.
Auch wenn ich überzeugt bin, dass sich die Richterschaft der mit der Strafzumessung einhergehenden Verantwortung bewusst ist, pflichte ich aufgrund meiner persönlichen gerichtlichen Erfahrung verschiedenen Praxisberichten7 insoweit bei, als die theoretischen Vorgaben und Vorschläge, die Rechtsprechung und Lehre insbesondere zwecks Eindämmung der Streuung und zur Förderung der Vorhersehbarkeit gemacht haben, bei der Richterschaft auf wenig Resonanz stoßen. Auch beobachte ich – nicht zuletzt an mir selbst –, dass sich Richterinnen und Richter bei der Strafzumessung, losgelöst von jeder Methodik, intuitiv an einem Endergebnis orientieren, nämlich an einem Bauchgefühl, welche Strafe nach ihrer Lebenserfahrung „in solchen Fällen üblich“ ist. Eine Überprüfung, insbesondere anhand von Präzedenzfällen, ob sich dieses Bauchgefühl hinsichtlich des „in solchen Fällen üblichen“ Strafmaßes tatsächlich in die bisherige Sanktionspraxis einordnen lässt, ist aus verschiedenen Gründen aufwendig und wird daher regelmäßig unterlassen oder sogar ausdrücklich abgelehnt.
II. Die Einsatzgebiete der KI im Dienste einer rechtsgleichen und somit gerechten Strafzumessung
Die Feststellung, dass das Strafmaß in hohem Maße von Zufälligkeiten abhängt, steht im Konflikt mit dem verfassungsrechtlichen Gebot der Rechtsgleichheit. Die Berücksichtigung des Gebots der Rechtsgleichheit ist eine wesentliche Komponente eines gerechten beziehungsweise eines als gerecht empfundenen Strafmaßes. Im Kontext der Strafzumessung bedeutet dies, dass die Strafe zweier Personen sowohl in der Art als auch der Höhe vergleichbar ausfallen muss, wenn bei identischen Vorwürfen dasselbe Tatverschulden zur Last gelegt wird. Dies gilt insbesondere in Rechtsbereichen, in denen die Strafzumessung nach der Theorie überwiegend von objektiv in Erscheinung tretenden und somit von quantifizierbaren oder zumindest kategorisierbaren Strafzumessungsfaktoren geprägt sein müsste (beispielsweise im Vermögens-, Betäubungsmittel- und Verkehrsstrafrecht). Dieser Grundsatz dürfte – auch wenn im Einzelnen unterschiedliche Strafgründe und -zwecke für legitim gehalten werden – auch innerhalb der Richterschaft anerkannt sein. So stellt doch die Bezugnahme auf ein nach Bauchgefühl eruiertes übliches Strafmaß im Grunde genommen eine „handgestrickte“ Gewährleistung dieses Gebots dar, welche – bislang – mit vernünftigem Aufwand gar nicht anders realisiert werden konnte.
Allerdings muss diese Erfahrung angesichts der neuen Möglichkeiten der KI verworfen werden. Eine KI-Anwendung, welche nach der Eingabe von Sachverhaltsmerkmalen, die in einem zu beurteilenden Fall vorliegen, Präjudizien mit vergleichbarer Sachverhaltskonstellation anzeigt, beseitigt sämtliche Aufwandshürden, welche sich bis anhin der gewissenhaften Prüfung in den Weg stellten, ob sich ein Strafmaß in die bisherige Sanktionspraxis einreihen lässt. Hinzu kommt, dass eine solche KI-Anwendung in die Lage versetzt werden kann, gestützt auf die ihr bekannte Sanktionspraxis eine statistisch ermittelte konkrete Strafmaßprognose abzugeben. Dies bietet der Anwenderin die Möglichkeit, das intuitiv ermittelte „übliche Strafmaß“ mit einem Wert zu vergleichen, welcher mit anerkannten Methoden der Statistik aus der bisherigen Rechtsprechung abgeleitet wird. Mit diesen Funktionen schlägt die KI-Anwendung die Brücke zwischen der praktizierten aufwandsarmen, aber fehleranfälligen intuitiven Festsetzung an einem nach Bauchgefühl ermittelten „üblichen Maß“ und der zwar gewissenhaften, aber bislang aufwendigen Eruierung der bestehenden Sanktionspraxis.
Es würde den Rahmen dieses Beitrags sprengen, hier die Funktionsweise einer solchen KI-Anwendung im Detail zu erklären. Daher erfolgt dies andernorts, namentlich auf der Website https://ki.strafzumessung.ch, wo überdies die Gelegenheit besteht, sich einen eigenen Eindruck von der Handhabung einer derartigen Anwendung zu machen. Deshalb müssen an dieser Stelle einige abstrakte Hinweise genügen: Für die KI-Anwendung werden rechnerische Herangehensweisen verwendet, die dem sogenannten Machine Learning (ML) zugeordnet werden. Dabei handelt es sich um einen Teilbereich der KI, bei welchem der Computer (machine) durch rechnerische Kenntnisnahme vorhandener Daten (learning) Schlüsse auf weitere, nicht bekannte Daten ableitet. Auf den vorliegenden Fall gemünzt bedeutet dies, dass der Computer anhand einer Sammlung bestehender Strafurteile das unbekannte Strafmaß künftiger Fälle prognostiziert. Die dabei verwendeten Rechenmethoden entstammen aus der Statistik, und sehr vereinfacht ausgedrückt lässt sich sagen, dass die so ermittelte Strafmaßprognose ein auf die fraglichen Eingabe- beziehungsweise Sachverhaltswerte abgeleiteter Durchschnittswert des vorhandenen Datenmaterials darstellt. Die Präjudizien werden mit dem ML-Konzept „Nearest Neighbor“ ermittelt, wobei die eingegebenen Sachverhaltsmerkmale mit denjenigen der in einer Datenbank abgelegten Urteile verglichen werden. Die Urteile, deren Sachverhaltsmerkmale die geringsten Differenzen zu den Eingabemerkmalen aufweisen, werden als „nächste Nachbarn“ beziehungsweise als merkmalsähnliche Präjudizien vorgeschlagen.
III. Entgegnung möglicher Vorbehalte gegen den Einsatz von KI bei der Strafzumessung
Der Einzug der KI in die Justiz wird aus unterschiedlichen Gründen kritisch betrachtet. Da KI-Anwendungen im Einzelnen sehr unterschiedlich funktionieren und auf verschiedenste Arten eingesetzt werden können, haben diese Bedenken in bestimmten Anwendungsfällen durchaus ihre Berechtigung. Nachfolgend soll dargelegt werden, dass diese Vorbehalte die soeben skizzierten Ansätze jedoch nicht betreffen.
1. Unvereinbarkeit mit richterlicher Unabhängigkeit?
Der vorgeschlagene Einsatz einer KI zur Findung des rechtsgleichen Strafmaßes kann sowohl bei den betroffenen Personen als auch bei der Richterschaft Bedenken bezüglich des verfassungsmäßigen Grundsatzes der richterlichen Unabhängigkeit gemäß Art. 97 GG hervorrufen. Vonseiten der beschuldigten Personen könnte befürchtet werden, dass anstelle der Richterin eine Maschine tritt und die Strafe auswählt. Eine Maschine, die im Gegensatz zu einem Menschen kein Gerechtigkeitsgefühl, das heißt kein Gespür für außergewöhnliche Konstellationen, hat, in denen gerechtfertigt ist, einen Einzelfall nicht nach den üblichen Strafzumessungskriterien zu bemessen. Aber auch vonseiten der Richterschaft kann es als Beschränkung der Unabhängigkeit verstanden werden, wenn sie sich in einem Bereich, in dem gewohnheitsmäßig ein weiter Ermessensspielraum zusteht, mit den Vorschlägen einer KI beziehungsweise mit der früheren (allenfalls eigenen) Rechtsprechung kritisch auseinandersetzen muss.
Derartigen Vorbehalten ist zunächst entgegenzuhalten, dass die KI keinesfalls an Stelle der Richterschaft treten und deren kritische Denkfähigkeit ersetzen soll. Unbestrittenermaßen gibt es gute Gründe dafür, im Bereich der Strafzumessung einen weiten Ermessensspielraum beizubehalten und so die Palette der möglichen Zumessungsfaktoren frei zu halten für atypische Einzelfälle. Aufgrund ihrer Funktionsweise muss die KI bei unvorhergesehenen und daher nicht im Trainingsdatensatz befindlichen Sachverhaltskonstellationen zwangsläufig versagen. Das bedeutet, dass die Entscheidung über die Art und das Maß einer Strafe selbst bei Zuhilfenahme einer KI letztlich immer von einem Menschen zu verantworten ist.
2. Diskriminierender Bias?
Wie bereits dargelegt, basieren KI-Anwendungen auf existierenden (Trainings-)Daten – in vorliegendem Fall auf Daten über frühere Urteile. Dabei kann nicht ausgeschlossen werden, dass die fraglichen Daten im Einzelnen unter Einfluss von kognitiven Verzerrungen und illegitimen Strafzumessungskriterien entstanden sind und dass diese Trainingsdaten als sogenannte Bias die Ergebnisse der KI verzerren. Diese Feststellung trifft auch auf die hier vorgeschlagene KI-Anwendung zu. Denn die KI ist grundsätzlich nicht in der Lage, ihren Trainingsdatensatz kritisch zu hinterfragen. Sie betrachtet jedes Urteil in ihrer Datengrundlage als Grundwahrheit, an welcher die neuen Sachverhaltskonstellationen gemessen werden.
Allerdings gilt es, in Erinnerung zu rufen, dass bei der aktuell praktizierten Festsetzung der Strafe ebenso wenig gewährleistet ist, dass kein Bias im Sinne menschlicher Vorurteile in die Rechtsprechung einfließt. In der Konsequenz lässt sich festhalten, dass diese Problematik von KI-Anwendungen kein Argument dafür darstellt, bei der Strafzumessung auf die Anwendung von KI zu verzichten, weil nicht ersichtlich ist, inwiefern der Status quo mit weniger Diskriminierungsrisiko und Fehleranfälligkeit behaftet wäre.
3. Mangelnde Transparenz und Halluzinationen?
Oft wird an die KI generell der Vorwurf herangetragen, dass die Herleitung ihrer Ergebnisse für die Menschen – selbst für diejenigen, welche die KI geschaffen haben – nicht rational nachvollziehbar sei. Dass die KI gewissermaßen eine Blackbox und ihre Vorgehensweise undurchsichtig (opak) sei, wobei dem Benutzer verborgen bleibe, welches die ausschlaggebenden Parameter für das Ergebnis eines KI-Systems seien. Es könne nicht ausgeschlossen werden, dass die KI halluziniere und den Benutzer so in die Irre führe.
Während der Vorwurf der Opazität für bestimmte KI-Systeme, wie die eingangs beispielhaft angesprochenen Large-Language-Modelle, welche auf neuronalen Netzwerken mit Milliarden von einzelnen Entscheidungsparametern basieren, zutrifft, ist er für die hier vorgeschlagene KI-Anwendung unbegründet. Die Funktionsweise des Nearest-Neighbor-Konzepts ist wenig komplex und jeder einzelne Präjudiz-Vorschlag ist (bei Bedarf) in seiner Entstehungsweise vollumfänglich erklär- und nachvollziehbar. Auch wenn beim Random-
Forest-Konzept, welches eine Strafmaßprognose abgibt, der Zufall eine Rolle spielt, sind die verwendeten Methoden bekannt, und diese unterscheiden sich nicht wesentlich von in der Rechtsprechung anerkannten statistischen Herangehensweisen, die gleichermaßen auf den Zufall setzen (wie das beispielweise beim stochastisch erhobenen Gütesiegel der Signifikanz einer statistischen Erhebung der Fall ist). Halluzinationen sind bei einer derartigen Prognose gänzlich ausgeschlossen. Abgesehen davon lässt es sich wiederum schwerlich behaupten, dass die gegenwärtige Praxis der Strafzumessung einen Grad der Nachvollziehbarkeit aufweise, welcher durch den Einsatz einer KI-Anwendung gefährdet würde.
IV. Würdigung und Ausblick
Die aus dem verfassungsrechtlichen Prinzip der Rechtsgleichheit fließende Gleichbehandlung verurteilter Straftäterinnen und Straftäter stellt eine wesentliche Komponente eines als gerecht empfundenen Strafmaßes dar. Jedoch ist die Gewährleistung dieses Prinzips in einem Rechtsbereich mit weiten Ermessensspielräumen, kaum verbindlichen Vorgaben sowie wenig griffigen Maßstäben aufwendig. In Ermangelung gangbarer Alternativen wird dieser Grundsatz in der Rechtswirklichkeit bislang regelmäßig lediglich intuitiv sichergestellt, wobei bei dieser Vorgehensweise die Gefahr von unzulässigen Einflüssen und kognitiven Fehlern besteht. Sodann haben zahlreiche empirische Erhebungen belegt, dass die Strafzumessung in der Praxis von Faktoren beeinflusst wird, die nach der Theorie keine Rolle spielen dürften.
Ich bin zur Überzeugung gelangt, dass diese Herausforderungen der gerechten Strafzumessung mit Unterstützung der KI zwar nicht behoben, aber doch verringert werden können. Die vorgeschlagene KI-Anwendung verschafft der anwendenden Person eine Übersicht über vergleichbare Urteile, welche es ihr ermöglicht, ein eigenes Bauchgefühl bezüglich des Strafmaßes einer kritischen Würdigung darauf zu unterziehen, ob dieses sich unter dem Aspekt der rechtsgleichen Behandlung widerspruchsfrei in die bisherige Rechtsprechung einreihen lässt. Dadurch wird der Richterschaft im Bereich der Strafzumessung eine handfeste Alternative zu den Anträgen der Parteien zur Verfügung gestellt, um den vorhandenen Ermessensspielraum willkür- und eben auch affektionsfrei(er) ausüben zu können.
1 Zu dieser Thematik auch B. Kohn, Künstliche Intelligenz und Strafzumessung, Wie der Einsatz technischer Hilfsmittel für eine gerechtere Sanktionspraxis im digitalen Zeitalter sorgen könnte, Diss. Augsburg, Baden-Baden 2021.
2 Eingehender: J. Achermann, Strafzumessung mit Hilfe künstlicher Intelligenz?, in: «Justice – Justiz – Giustizia» 2024/3, (open access: «https://ki.strafzumessung.ch»), Rz. 3 ff.
3 A.a.O.
4 J. Kaspar, Digitalisierung als Chance für die Strafzumessung?, in: KriPoZ 1/2023, S. 6.
5 K. Clancy/J. Bartolomeo/D. Richardson, Sentence Decisionmaking, The Logic of Sentence Decisions and the Extent and Sources of Sentence Disparity, in: Journal of Criminal Law and Criminology 2/1981, S. 524 ff.; B. Englich/T. Mussweiler, Sentencing Under Uncertainty, Anchoring Effects in the Courtroom, in: Journal of the Applied Social Psychology, 7/2001, S. 1535 ff.; C. Nickolaus, Ankereffekte im Strafprozess, Verstoß gegen das Prinzip des fairen Verfahrens, Diss. Mainz 2018, Baden-Baden 2019, S. 202 ff., 222.
6 Weitere Hinweise bei Achermann (Fn. 2), Rz. 17; Zum dt. «Nord-Süd-Gefälle» V. Grundies, Regionale Unterschiede in der gerichtlichen Sanktionspraxis in der Bundesrepublik Deutschland, eine empirische Analyse, in: Hermann/Pöge (Hrsg.), Kriminalsoziologie, 2018, S. 295.
7 K.-L. Kunz, Überlegungen zur Strafbemessung auf erfahrungswissenschaftlicher Grundlage, in: Kunz K.-L. (Hrsg.), Bürgerfreiheit und Sicherheit, Perspektiven von Strafrechtstheorie und Kriminalpolitik, Bern 2000, S. 223 f.; P. Albrecht, Strafzumessung ohne individuelle Tatschuld?, in: ZStR 2017, S. 467 f.; J. Kaspar (Fn. 4), S. 6.