Endlich ist es soweit: Eine aktuelle Studie zeigt, wie weit Künstliche Intelligenz wirklich ist, wenn es um juristische Prüfungsfragen geht – und sie liefert spannende, aber auch ernüchternde Ergebnisse.
Die Professoren Dr. Markus Conrads und Dr. Sascha Schweitzer haben nach ihrem ersten Versuch im Jahr 2023 erneut getestet, wie gut moderne KI-Modelle juristische Fälle lösen können (NJW 2025, 2888). Dieses Mal standen 200 Multiple-Choice-Fälle aus den Bereichen Vertragsrecht, Arbeitsrecht und Wirtschaftsrecht auf dem Prüfstand.
KI lernt schnell – aber sie denkt (noch) nicht wie ein Jurist
Alle getesteten Modelle bekamen dieselben Fragen mit jeweils vier Antwortmöglichkeiten. Während ChatGPT-4 im Jahr 2023 nur etwa 50 % richtige Antworten erzielte, erreichen die Spitzenmodelle 2025 bereits rund 75 %, in einzelnen Rechtsgebieten sogar über 85 %. Selbst ein offenes Modell wie DeepSeek R1 schafft solide 60 % – ein bemerkenswerter Fortschritt in nur zwei Jahren.
Doch der Teufel steckt – wie so oft im Juristischen – im Detail: Sobald die Forscher die Systeme mit komplexeren Fällen konfrontierten, bei denen mehrere Prüfungsschritte aufeinander aufbauen, brach die Erfolgsquote drastisch ein. Selbst das beste Modell schaffte bei drei aufeinanderfolgenden Subsumtionsschritten nicht einmal 50 % richtige Gesamtlösungen.
Die Autoren folgern treffend:
„Nicht ohne Weiteres kann auf die Eignung zur vollständigen Falllösung geschlossen werden. (…) Komplexe juristische Fallbearbeitung bleibt daher – zumindest auf absehbare Zeit – eine Aufgabe menschlicher Rechtsanwender, die in der Lage sind, Unsicherheiten zu erkennen, Wertungen vorzunehmen und kontextuell zu gewichten.“
Was bedeutet das für die Praxis?
Die Ergebnisse bestätigen, was viele Praktiker und Lehrende längst spüren:
-
Bei einfachen Fragen ist KI inzwischen erstaunlich zuverlässig.
-
Multiple-Choice-Tests mit klar abgegrenzten Antwortmöglichkeiten liegen ihr besonders gut.
-
Komplexe Fälle, in denen rechtliche, tatsächliche und wertende Elemente zusammenwirken, überfordern sie jedoch weiterhin – und das deutlich.
Interessant ist dabei auch: Die KI trifft häufig die richtige Antwort unter vier Optionen, aber ob sie diese ohne Vorauswahl ebenfalls gefunden hätte, bleibt offen. Die Fähigkeit zur eigenständigen Strukturierung und Gewichtung juristischer Argumente ist eben das, was menschliche Juristen (noch) unersetzlich macht.
Zwischen Hype und Realität
Seit Jahren kursieren Prognosen, dass „KI-Boutiquen“ bald die großen Kanzleien herausfordern oder „Chatbots“ erste Mandantenanfragen eigenständig bearbeiten könnten.
Die aktuelle Studie zeigt: Wir sind davon noch weit entfernt.
Natürlich kann KI die juristische Arbeit ergänzen – etwa beim Recherchieren, Strukturieren oder Vorformulieren. Aber das Verstehen, Abwägen und Bewerten bleibt eine zutiefst menschliche Leistung.
Fazit
Die juristische KI ist auf dem Vormarsch, keine Frage. Sie lernt schnell und wird bei Routinefragen immer besser. Doch sobald die Aufgaben komplexer werden, zeigt sich: Ohne menschliches Urteilsvermögen geht es (noch) nicht.
Oder, um es etwas entspannter zu sagen: Junior Associates können aufatmen. 😮💨