№ 035AnalyseKI & Organisation

Wo ChatGPT im Arbeitsrecht gefährlich wird

69 bis 88 Prozent halluzinatorische Antworten bei Rechtsfragen — warum gerade die sensibelsten HR-Felder die größten KI-Risiken bergen.

Kai ReinhardtAugust 20256 Min. Lesezeit

Kurzantwort

ChatGPT versagt im HR ausgerechnet dort am stärksten, wo Fehler am teuersten sind: im Arbeitsrecht. In der HTW-Studie erreichte die KI hier nur 1,71 von 5 Punkten gegenüber 3,88 beim Menschen. Der Grund ist die Halluzination — die Eigenschaft von Sprachmodellen, plausibel klingende, aber falsche oder erfundene Inhalte zu erzeugen. Eine Stanford-Studie beziffert den Anteil halluzinatorischer Antworten großer Sprachmodelle bei rechtlichen Anfragen auf 69 bis 88 Prozent. ChatGPT lieferte teils frei erfundene Quellen und veraltete Angaben. Die Lehre: Je sensibler und regelgebundener ein Feld, desto unzuverlässiger die Maschine — und desto unverzichtbarer die menschliche Prüfung.

Es gibt eine bequeme Annahme: KI sei dort am nützlichsten, wo es um präzise Fakten geht — Recht, Zahlen, Vorschriften. Die Realität ist das Gegenteil. Gerade dort, wo Genauigkeit zählt, ist ChatGPT am gefährlichsten, weil es Falsches überzeugend formuliert.

Der Befund: 1,71 von 5

Im Experiment der HTW Berlin war das Arbeitsrecht das Feld mit der größten Qualitätslücke. Die KI-gestützte Gruppe erreichte nur 1,71 Punkte, die menschliche 3,88 — mehr als doppelt so gut. ChatGPT hatte Schwierigkeiten, aktuelle Rechtsnormen korrekt zu interpretieren, arbeitete auf einer allgemeinen Datengrundlage und erfand teilweise Quellen. Bei der Entgeltgestaltung lieferte es veraltete Angaben, etwa zu Freigrenzen steuerfreier Gehaltsbausteine.

Warum Sprachmodelle halluzinieren

Eine Halluzination ist kein Bug, sondern eine Eigenschaft: Sprachmodelle erzeugen das wahrscheinlichste nächste Wort, nicht die geprüfte Wahrheit. Bei Rechtsfragen, wo es auf exakte Normen, Fristen und Quellen ankommt, schlägt das durch. Die zitierte Stanford-Studie (Dahl et al. 2024) fand bei großen Sprachmodellen 69 bis 88 Prozent halluzinatorische Antworten auf rechtliche Anfragen. Das Tückische: Die falschen Antworten klingen so souverän wie die richtigen.

Das Gefährliche an der KI-Halluzination ist nicht, dass sie falsch liegt — sondern dass sie dabei überzeugend klingt.

Die Konsequenz für HR — und Governance

Daraus folgt keine Technikfeindlichkeit, sondern eine klare Arbeitsteilung. In rechtssensiblen Feldern darf KI Entwürfe liefern, niemals Endergebnisse; jede Aussage braucht eine menschliche, fachliche Prüfung. Das ist zugleich eine Organisations- und Governance-Frage: Wer KI in HR-Entscheidungen einsetzt, muss festlegen, wer für die Korrektheit einsteht und wie die Prüfung organisiert ist. Genau diese Verantwortungsklärung verlangt auch der EU AI Act, der HR-Anwendungen als Hochrisiko einstuft.

Halluzinationsrate von Sprachmodellen bei Rechtsfragen und Qualitätslücke im Arbeitsrecht — Halluzinationen bei Rechtsfragen (69–88 %, Stanford 2024) und die Qualitätslücke im Arbeitsrecht (1,71 vs. 3,88) aus der HTW-Studie. Eigene Darstellung © 2026 Prof. Dr. Kai Reinhardt.

Häufige Fragen

Wie zuverlässig ist ChatGPT bei Rechtsfragen? Wenig. Eine Stanford-Studie fand 69 bis 88 Prozent halluzinatorische Antworten großer Sprachmodelle bei rechtlichen Anfragen; in der HTW-Studie war die Qualität im Arbeitsrecht am schlechtesten (1,71 von 5).

Was ist eine KI-Halluzination? Die Eigenschaft von Sprachmodellen, plausibel klingende, aber falsche oder erfundene Inhalte zu erzeugen — inklusive frei erfundener Quellen. Sie ist kein Bug, sondern Folge der Funktionsweise.

Wie sollte man KI in rechtssensiblen HR-Feldern einsetzen? Nur für Entwürfe, nie für Endergebnisse, und immer mit menschlicher fachlicher Prüfung — flankiert von einer Governance, die klärt, wer für die Korrektheit einsteht.

[kr] Kai Reinhardt · August 2025

Der Befund: 1,71 von 5

Warum Sprachmodelle halluzinieren

Die Konsequenz für HR — und Governance

Häufige Fragen

Nichts Wichtiges verpassen