Data Science, aber für Jura: Das ist Legal Data Science. Seán Fobbe erklärt in zwei Teilen, was sie ist, wie sie funktioniert und wie man sie sich nützlich machen kann - und zwar verständlich für alle. Heute in Teil II: ein Anwendungsbeispiel
In Teil I habe ich gezeigt, was Legal Data Science ist und worauf es ankommt. Soweit zu den Rahmenbedingungen.
Wie aber funktioniert (Legal) Data Science in der Praxis? Der Prozess wird in der Regel in mehreren Teilschritten beschrieben, beispielsweise als die drei Schritte Datensammlung, Analyse und Kommunikation. Davor steht aber ein noch viel wichtigerer Schritt, der gerne vollständig vergessen oder vernachlässigt wird: die Formulierung der Fragestellung. Der Prozess einer Anwendung von Data Science läuft demnach immer ähnlich ab. Und zwar:
- Formulierung der Fragestellung
- Sammlung und Aufbereitung der Daten
- Analyse der Daten
- Kommunikation der Ergebnisse
Keine Sorge: Dieser abstrakte Prozess lässt sich durch ein einfaches Praxisbeispiel schnell mit Leben füllen.
Welche Frage stellen wir uns? Nehmen wir an, unser Interesse gilt der Corona-Rechtsprechung des Bundesverfassungsgerichts und der Prüfdichte des Gerichts über die Zeit hinweg betrachtet. Zunächst möchten wir die relevanten Entscheidungen mit quantitativen Methoden bestimmen, um sie im Anschluss im Detail zu lesen und sie im Rahmen einer tiefgehenden rechtsdogmatischen Analyse zu vergleichen. Diese Herangehensweise ist das tägliche Brot moderner Jurist:innen. Vorneweg: Sie können alle Ergebnisse dieses Praxisbeispiels als die "Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona)" open access herunterladen.
Viele Jurist:innen würden statt der quantitativen Vorauswahl eine willkürliche Selektion der "wichtigsten" Entscheidungen treffen, ohne diese näher zu begründen. Ausdauernde Zeitgenoss:innen öffnen immerhin Beck Online und klicken sich mit viel Elan vielleicht bis zur dritten oder vierten Seite der Suchergebnisse durch, bevor sie entnervt aufgeben.
Um einmal in Relation zu setzen, wie wichtig die Gewinnung und Aufbereitung der Daten ist, folgendes Beispiel: In ihrer bemerkenswerten Studie zur Corona-Rechtsprechung der Verfassungs- und Verwaltungsgerichte haben die Jenaer Juraprofessorin Dr. Anika Klafki und vier ihrer Mitarbeiterinnen per Hand über 670 bei juris und LexCorona veröffentlichte Entscheidungen zusammengetragen. Und trotzdem kann hier in keinem Fall von wissenschaftlicher Vollständigkeit oder Reproduzierbarkeit gesprochen werden, denn die Such-Algorithmen ("Was ist relevant, was nicht?") und der Datenbestand privater Anbieter sind eine Black Box.
Wie können wir also eine vollständige und wissenschaftlich reproduzierbare Auswahl treffen? Durch Open Legal Data und Legal Data Science. Und zwar wie folgt.
Essenzielle Daten wählt man nicht nach Gefühl aus
Der Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG) enthält alle vom Bundesverfassungsgericht auf seiner Website bis zu einem bestimmten Stichtag veröffentlichten Entscheidungen (ab 1998) und wird ca. alle sechs Monate aktualisiert. Die Sammlung, Aufbereitung und Dokumentation der Daten wurde hier bereits separat durchgeführt und kann im Codebook und Compilation Report für den CE-BVerfG nachgelesen werden.
Weniger technisch ausgedrückt: Ein Codebook ist quasi die "Bedienungsanleitung" für einen Datensatz. Der Compilation Report dokumentiert dagegen streng den gesamten Erstellungsprozess, inklusive Source Code, Ergebnisse automatisierter Tests und eventueller Fehlermeldungen. So ist immer nachvollziehbar, woher die Daten kommen, was sie ausmacht und wie swie bisher aufbereitet wurden. Achtung: Die Datengrundlage für unser BVerfG-Corona-Rechtsprechung-Beispiel enthält nur begründete Entscheidungen. Wir können also keine Aussagen über Entscheidungen ohne Begründung treffen, da diese vom BVerfG nicht systematisch veröffentlicht werden.
Die nächste Aufgabe: Wie führen wir nun die quantitative Vorauswahl durch? Durch eine sogenannte Key-Word-in-Context-Analyse (KWIC). Wir machen uns hier eine Eigenschaft juristischer Texte zunutze, die viele Student:innen im Grundstudium zur Weißglut treibt: Die Rechtswissenschaft ist eine Schlagwortwissenschaft. Während Klausuren auf viele angehende Jurist:innen eher wie Buzzword-Bingo wirken und nicht wie eine Gelegenheit, ihr Wissen und ihre Argumentationsfähigkeit unter Beweis zu stellen, können wir uns diese Eigenschaft der Juristerei hier zunutze machen. Um eine strenge und reproduzierbare Vorauswahl an Entscheidungen zu treffen, untersuchen wir jeden Text auf das Vorhandensein bestimmter Schlagworte und nehmen nur Texte mit Treffern in die Vorauswahl auf.
Im konkreten Fall habe ich die Schlagworte "Corona", "COVID" und "SARS-CoV" gewählt und festgelegt, dass mindestens eines der drei Schlagworte im Volltext der Entscheidung enthalten sein muss, um als "Corona-Entscheidung" zu gelten. Ich halte es für sehr unwahrscheinlich, dass eine Entscheidung zur Corona-Pandemie ergeht, ohne das mindestens eines dieser Worte verwendet werden würde. Dennoch: Es bleibt eine Annahme, die auch widerlegt werden kann. Selbst wenn sie falsch sein sollte — auf diesem Wege lässt sie sich reproduzierbar dokumentieren und ist für Leser:innen nachvollzieh- und kritisierbar. Wissenschaft ist schon was Feines.
Was die Ergebnisse uns Nützliches zeigen
Was ist nun das Ergebnis der Analyse und wie kommunizieren wir es? Zum Stichtag des 1. Februar 2022 hatte das BVerfG 105 Entscheidungen mit Corona-Bezug verkündet und begründet. Die Abbildung (zum Vergrößern klicken) gibt zunächst einen grafischen Überblick in Form eines Lexical Dispersion Plots (auch bekannt als X-Ray Plot). Jede Zeile ist eine Entscheidung, rechts sind jeweils Datum und Aktenzeichen aus dem Dateinamen erkennbar. Auf der linken Seite zeigen schwarze Striche Treffer der drei Suchbegriffe für jede Entscheidung an. Die Länge der Entscheidungen ist auf 1.0 normalisiert, d.h. ein Strich bei 0.5 ist ein Treffer genau in der Mitte der Entscheidung.
Wir erkennen hier sofort, dass drei Entscheidungen durch besonders häufige Erwähnungen der Suchbegriffe herausstechen: Es handelt sich um die beiden Entscheidungen zur Bundesnotbremse sowie zur Behandlung von behinderten Menschen in Triage-Situationen.
Wie unterstützt uns das aber bei der dogmatischen Aufarbeitung der Corona-Rechtsprechung? Zunächst durch den hilfreichen Überblick und die Gewissheit, dass wir (sehr wahrscheinlich) keine Entscheidung übersehen haben. Die Volltexte aller im Diagramm gezeigten Entscheidungen sind zudem sortiert und bequem verpackt in einem einzelnen ZIP-Archiv herunterladbar. Zusätzlich steht uns die KWIC-Analyse im Tabellenformat zur Verfügung: Jeder Treffer für jede Datei ist mit 15 Wörtern Kontext vorher und nachher in einer übersichtlichen Tabelle aufbereitet. Dadurch können wir schnell entscheiden, welche Entscheidungen es sich zuerst zu lesen lohnt.
Legal Data Science hat uns für die dogmatische Aufbereitung der Corona-Rechtsprechung des BVerfG Folgendes geschaffen:
- Einen Lexical Dispersion Plot/X-Ray Plot zur Übersicht (Abbildung)
- Eine Tabelle aller Treffer mit 15 Wörtern Kontext vorher/nachher
- Alle Entscheidungen zum bequemen Download in einem einzelnen ZIP-Archiv
Möchten Sie die so aufbereiteten Ergebnisse für ihre eigene Arbeit nutzen? Die Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona) ist, inklusive einer hochauflösenden Fassung des Diagramms, open access verfügbar und kann kostenlos heruntergeladen werden. Der gesamte Quellcode ist ebenfalls als Source Code der Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona-Source) open access verfügbar.
Legal Data Science kann noch verdammt viel mehr
Für diesen Artikel habe ich bewusst ein einfaches Beispiel gewählt, um den Prozess selbst hervorzuheben und methodische Feinheiten auszuklammern. Legal Data Science ist aber ein breites Feld mit vielen außerordentlich anspruchsvollen Methoden und spannenden Anwendungsmöglichkeiten. Es kann einfach noch so viel mehr.
Beispielsweise ist es rein methodisch tatsächlich möglich, den Erfolg von Gerichtsentscheidungen vorherzusagen, auch wenn es in der Praxis nicht einfach ist und meist am fehlenden Datenbestand scheitert. Die äußeren Grenzen von Legal Data Science sind im Grunde nur die Fantasie der Analyst:innen und die verfügbare Rechenleistung. Einen breiten Überblick über Methoden gibt Alschner (2019). Viele spannende Anwendungsbeispiele finden sich bei Coupette at al (2022).
Die Revolution im Rechtsstaat und im juristischen Alltag wird kommen — allerdings nicht mit prophetischen Paukenschlägen, sondern leise und kontrolliert in Person derer, die mit Legal Data Science die richtigen Fragen stellen.
Der Autor Seán Fobbe ist Völkerrechtler und Legal Data Scientist. Er twittert er über Menschenrechte, Data Science und den Schutz von Kulturgütern im Irak.
Legal Data Science – Teil II: . In: Legal Tribune Online, 13.07.2022 , https://www.lto.de/persistent/a_id/49024 (abgerufen am: 21.11.2024 )
Infos zum Zitiervorschlag