Eine KI für alle: Warum algorithmische Monokultur das eigentliche Risiko im Recruiting ist
Die Debatte fragt: Ist das KI-Tool voreingenommen? Die erste Großstudie an echten Bewerbungsdaten dreht die Frage um. Das eigentliche Risiko ist nicht das einzelne Tool — es ist, dass fast alle dieselben wenigen nutzen. Dann wird Ablehnung systemisch.
Algorithmische Monokultur meint den Zustand, dass sehr viele Arbeitgeber ihr Bewerber-Screening von denselben wenigen KI-Anbietern erledigen lassen. Die erste Großstudie an realen Daten (3,4 Mio. Bewerber, 4,2 Mio. Bewerbungen, ein Vendor) zeigt zwei Effekte: Erstens systemische Zurückweisung — 4 % der Bewerber, die sich auf zehn Positionen bewerben, werden von allen abgelehnt, weil überall dasselbe Modell urteilt; das fällt langsamer als der Zufall und unterscheidet sich qualitativ von vor-algorithmischen Arbeitsmärkten. Zweitens rassische Benachteiligung, die im aggregierten Mittel verschwindet und erst pro Position sichtbar wird (10,62 % der Stellen benachteiligen Schwarze Bewerber). Das eigentliche Risiko ist also nicht das einzelne Tool, sondern die Marktkonzentration dahinter.
Wenn über künstliche Intelligenz im Recruiting gestritten wird, läuft die Frage fast immer auf dieselbe hinaus: Ist das Tool voreingenommen? Es ist die falsche Frage — oder genauer: die zu kleine. Die erste Großstudie, die echte Algorithmus-Entscheidungen über viele Arbeitgeber hinweg beobachtet, verschiebt den Blick. Das Risiko sitzt nicht im einzelnen Filter. Es sitzt darin, dass fast alle denselben benutzen.
Die Datenlage ist beispiellos: 4,2 Millionen Bewerbungen von 3,4 Millionen Menschen auf 1.746 Positionen bei 156 Arbeitgebern in elf Branchen — alle gescreent von einem Anbieter (pymetrics, ein spielebasiertes Verfahren). Erstmals lässt sich damit beobachten, was mit demselben Bewerber passiert, wenn er bei mehreren Firmen durch dieselbe Maschine läuft. Genau das ist der Punkt, den die Tool-für-Tool-Debatte nie sehen konnte.
Zwei Annahmen, die in die Irre führen
Die erste: KI mache Auswahl objektiver. Mehr Daten, weniger Bauchgefühl, also fairer. Die zweite: Verzerrung sei ein Tool-Problem — man prüfe jedes Werkzeug einzeln auf Bias und habe das Risiko im Griff.
Beide klingen vernünftig. Beide übersehen das Strukturelle: Sobald ein Werkzeug viele Entscheider bedient, ist seine Wirkung nicht mehr die Summe einzelner Urteile, sondern ein Urteil, vielfach kopiert.
Was die erste Großstudie zeigt
Befund 1 — systemische Zurückweisung. Wer überall auf dasselbe Modell trifft, kann überall abgelehnt werden. 4 % der Bewerber, die sich auf zehn Positionen bewerben, werden von allen abgelehnt. Diese Rate fällt zwar mit der Zahl der Bewerbungen, aber langsamer als es der Zufall täte. Zum Vergleich haben die Autoren die größte vor-algorithmische Studie herangezogen — 83.000 Bewerbungen an 108 Großkonzerne: Dort entsprach die Überall-Ablehnung exakt dem, was unabhängige Einzelentscheidungen erwarten lassen. Die Monokultur erzeugt also keine graduell schlechtere, sondern eine qualitativ andere Arbeitsmarktdynamik.
Befund 2 — Benachteiligung, die sich im Mittelwert versteckt. Der Anbieter hatte zuvor über alle Stellen aggregiert und keine Auffälligkeit gefunden. Betrachtet man jedoch — wie es das Recht verlangt — jede Position einzeln, kippt das Bild: 10,62 % der Stellen benachteiligen Schwarze Bewerber nach dem US-Maßstab der „Four-Fifths-Rule”. 25,87 % der Bewerbungen Schwarzer und 14,74 % der Bewerbungen asiatischer Bewerber gehen an Modelle, die ihre Gruppe benachteiligen. Hätte das System sie wie die meistbegünstigte Gruppe behandelt, wären rund 40.000 Bewerbungen weitergekommen.
Das Risiko ist nicht die eine voreingenommene KI. Es ist die eine KI für alle.
Warum das kein reines US-Problem ist
Man könnte abwinken: anderer Anbieter, anderes Rechtssystem. Das verkennt den Kern. Es geht nicht um pymetrics — das Verfahren hat seine Modelle sogar aktiv zu entzerren versucht und produziert trotzdem mittelbare Benachteiligung, weil Spiel-Verhalten als Stellvertreter für Gruppenzugehörigkeit wirken kann. Der eigentliche Treiber ist Marktkonzentration: In den USA nutzen über 90 % der Arbeitgeber KI-Screening, die meisten von denselben wenigen Anbietern — HireVue allein screent für über 60 % der Fortune 100. Genau diese Konzentration baut sich auch im deutschsprachigen Markt auf. Und der Mechanismus „Monokultur” ist anbieterunabhängig: Er entsteht aus der Konzentration, nicht aus einem bestimmten Tool.
Für die Politik: Aufsicht muss pro Position und am Einsatz ansetzen
Zwei Lehren. Erstens: Aggregierte Fairness-Nachweise sind wertlos — sie sind genau der Trick, in dem Benachteiligung verschwindet. Aufsicht muss die Wirkung pro Position und zur Laufzeit prüfen, nicht im gepoolten Mittel oder im statischen Audit vor dem Einsatz. Zweitens: Die EU-KI-Verordnung stuft HR-KI zu Recht als Hochrisiko ein — aber die Einstufung braucht Zähne in Form unabhängiger, einsatznaher, anbieterübergreifender Prüfung. Und die Konzentration selbst ist ein arbeitsmarkt- und wettbewerbspolitisches Thema: Wenn ein Anbieter zum Nadelöhr für eine ganze Branche wird, entscheidet er mit, wer überhaupt arbeiten darf.
Für Unternehmen: Eignungsdiagnostik ist Führungsaufgabe, kein Einkauf
Für HR und Geschäftsleitung ist der Befund unbequemer, als er klingt. Wer sein Screening an denselben Anbieter auslagert wie alle anderen, kauft nicht nur Effizienz — er importiert ein korreliertes Urteil und eine Haftung, die er nicht sieht (mittelbare Diskriminierung ist nach dem AGG angreifbar). Drei Konsequenzen: Erstens, aggregierte Anbieter-Reports nicht akzeptieren, sondern Wirksamkeit pro Position belegen lassen. Zweitens, Verfahren diversifizieren und einen Menschen genau dort in die Schleife setzen, wo die Monokultur konzentriert. Drittens — und das ist der eigentliche Punkt: Eignungsdiagnostik ist eine Kernkompetenz der Organisation, kein Beschaffungsvorgang, den man an eine Blackbox delegiert. Wer beurteilt, wer zum Unternehmen passt, definiert, was das Unternehmen morgen kann.
Der nüchterne Schluss
Die Frage „Ist unsere Recruiting-KI voreingenommen?” ist nicht falsch — sie ist zu klein. Die größere Frage lautet: Was passiert, wenn alle dieselbe benutzen? Und das ist eine Frage, die kein einzelner Anbieter über sich selbst beantworten kann. Sie zu stellen — und unabhängig beantworten zu lassen — ist die eigentliche Führungs- und Regulierungsaufgabe im KI-Recruiting.
Häufige Fragen
Was ist eine algorithmische Monokultur im Recruiting? Der Zustand, dass viele Arbeitgeber ihr Bewerber-Screening von denselben wenigen KI-Anbietern erledigen lassen. Dadurch werden Auswahlentscheidungen nicht mehr unabhängig getroffen, sondern korreliert: Wer von einem Modell abgelehnt wird, wird tendenziell überall abgelehnt, wo dasselbe Modell screent.
Was ist der neue, überraschende Befund der Studie? Die systemische Zurückweisung: 4 % der Bewerber, die sich auf zehn Positionen bewerben, werden von allen abgelehnt — eine Rate, die langsamer als der Zufall fällt. In vor-algorithmischen Arbeitsmärkten entsprach die Ablehnung dem Muster unabhängiger Entscheidungen; die Monokultur erzeugt eine qualitativ andere Dynamik.
Warum sah der Anbieter selbst keine Diskriminierung? Weil er über alle Stellen aggregiert hat. Im gepoolten Mittel heben sich Über- und Unterempfehlung verschiedener Jobs auf und es sieht unauffällig aus. Erst die gesetzlich verlangte Betrachtung pro Position legt offen, dass 10,62 % der Stellen Schwarze Bewerber benachteiligen.
Was heißt das für deutsche Arbeitgeber? Der Mechanismus ist anbieterunabhängig und greift auch hier, wo sich der Markt auf wenige Tools konzentriert. HR-KI gilt nach der EU-KI-Verordnung als Hochrisiko, mittelbare Benachteiligung ist nach dem AGG angreifbar. Wer Screening an denselben Anbieter wie alle auslagert, importiert ein korreliertes Urteil und eine Haftung, die er nicht sieht.