KI prüft KI – und scheitert? Über Bias-Effekte und Verzerrungen in KI‑Detektoren

KI prüft KI – und scheitert? Über Bias-Effekte und Verzerrungen in KI‑Detektoren

12.02.26

Dekoratives Sharepic. Text: Teil III der Reihe „Machtkritische und bias-sensible KI“ / Blog- KI prüft KI – und scheitert? Über Bias-Effekte und Verzerrungen in KI‑Detektoren / Ein Blogbeitrag von Inga Gostmann und Lea Hildermeier. Unten rechts: Logo Hochschulforum Digitalisierung.

Die Diskussionen über den Einsatz von KI erweitern sich zunehmend um die Frage, ob sogenannte KI-Detektoren sinnvoll eingesetzt werden können, also Software, die erkennen soll, ob ein Text von einem Menschen verfasst oder KI-generiert wurde. Damit verbunden ist häufig die Hoffnung, überprüfen zu können, ob Studierende generative KI unrechtmäßig genutzt haben, etwa beim Schreiben von Haus- oder Abschlussarbeiten. 

Was auf den ersten Blick nach einer unkomplizierten Lösung zur Aufdeckung von Täuschungsversuchen klingt, erweist sich jedoch als problematisch: Der Einsatz von KI-Detektoren führt zu unzuverlässigen Ergebnissen und ist durch sozial verzerrte Trainingsdaten und Outputs ethisch fragwürdig. Im Folgenden werfen wir einen Blick darauf, welche Probleme die Verwendung von KI-Detektoren durch Biases der Detektoren eher erzeugt als löst.

Verbreitung von KI-Detektoren an Hochschulen

Zunächst zur Ausgangslage: Es lässt sich derzeit nicht eindeutig sagen, wie viele Hochschulen – oder wie viele Lehrende und Studierende – KI-Detektoren (regelmäßig) einsetzen. Laut KI-Monitor (Budde/Tobor, 2025) stellen 18 % der 93 befragten Hochschulen KI-Detektoren zentral zur Verfügung, 6,5 % berichten, diese bereits im Regelbetrieb anzubieten; bei den übrigen zwei Dritteln findet der Einsatz im Modellversuch statt. Auch wenn der Monitor resümiert, dass „die Hochschulen in der Breite dem Einsatz von KI-Detektoren zur Überprüfung von Prüfungsleistungen eher skeptisch gegenüberstehen“ (Budde/Tobor, 2025), ist dennoch zu berücksichtigen, dass fast jede fünfte der befragten Hochschulen entsprechende Tools anbietet. Hinzu kommt eine unbekannte Zahl an einzelnen Dozierenden, die KI-Detektoren einsetzen, um studentische Arbeiten zu überprüfen, ebenso wie Studierende, die überprüfen, ob dieselben Detektoren ihre Texte – ob nun selbst verfasst oder nicht – als KI-generiert einordnen.

Allein das breite Angebot kostenloser Detektoren, die eine schnelle Einschätzung versprechen, legt zudem nahe, dass der Bedarf an solchen Technologien wächst. Vor diesem Hintergrund werden KI-Detektoren im Hochschulkontext als mögliche technische Lösung zur Überprüfung von Prüfungsleistungen häufig diskutiert. Im Zentrum steht die Frage, wie sich überprüfen lässt, ob Studierende die vorgesehenen Lernziele mit eigenständig verfassten Texten erreichen. Genau diese Unklarheit bildet den Ausgangspunkt der folgenden Ausführungen, in denen wir skizzieren, wo die damit verbundenen Probleme liegen.

Was ist mit Bias gemeint?

Im Zusammenhang mit KI ist häufig von Bias die Rede, also von Verzerrungen in Daten und Modellen, die systematisch zu falschen und auch zu benachteiligenden Ergebnissen führen können. Bias bedeutet zunächst nur Vorurteil oder Vorprägung im Englischen. Der Begriff des algorithmischen Bias oder technischen Bias hat sich speziell herausgebildet, um Probleme in Bezug auf die Arbeit mit KI zu bezeichnen.

Susanne Lillian Gössl und Selen Yakar fassen, in Anlehnung an das Arbeitspapier der Europäischen Kommission zu algorithmischen Diskriminierung in Europa, unter algorithmischem Bias einen „systematischen Fehler im Ergebnis einer algorithmischen Musterbildung”, der auf statistischen, kognitiven, gesellschaftlichen, strukturellen oder institutionellen Verzerrungen beruhen kann.
Sie unterscheiden dabei etwa
bias in the process (Vorurteile der Entwickler:innen der Algorithmen), bias in the input (verzerrte Beispieldaten) und societal bias captured in representative data (Trainingsdaten, die gesellschaftliche Probleme verstärken und sich in repräsentativen Datensätzen fortschreiben).

Technische Unzuverlässigkeit und Bias

KI-Detektoren heißen nicht nur so, weil sie KI erkennen sollen, sondern auch weil sie selbst mit KI funktionieren. KI soll verwendet werden, um KI-Generiertes zu erkennen. Sie basieren auf maschinellen KI-Modellen, die anhand großer Textdatensätze trainiert wurden, um bestimmte sprachliche Muster als menschlich oder KI-generiert zu klassifizieren. Judith Simon, Professorin für Ethik der Informationstechnologie an der Universität Hamburg, weist darauf hin, dass „die meisten KI-Anwendungen, von denen wir heute reden, datenbasierte Systeme sind. Als solche lernen sie Muster aus alten Daten, um daraus Klassifikationen, Prognosen oder neue sprachliche oder visuelle Inhalte zu erstellen“ (strategie digital, Ausgabe 6, S. 39).

Damit sind KI-Detektoren selbst Teil jener Technologien, deren Grenzen und Fehleranfälligkeiten sie zu identifizieren vorgeben. Aus dieser Funktionsweise ergibt sich ein zentrales Problem: KI-Detektoren kategorisieren Texte beeinflusst durch strukturelle Verzerrungen (Bias) aus ihren Trainingsdaten sowie aus den zugrunde liegenden Bewertungslogiken. Ihr Einsatz garantiert daher weder Neutralität noch verlässliche Ergebnisse. Entsprechend ist auch mit den von ihnen erzeugten Wahrscheinlichkeitswerten – ob ein Text menschlich verfasst ist oder nicht – kritisch umzugehen, da diese eine Genauigkeit suggerieren, die faktisch nicht gegeben ist. Wie es Kira Baresel, Janine Horn und Susanne Schorer in der Stellungnahme des Digitale Lehre Hub Niedersachsen zum Einsatz von KI-Detektoren zur Überprüfung von Prüfungsleistungen formulieren, sind „KI-Detektoren (…) nicht zuverlässig, auch wenn die Prozentangaben, mit denen angegeben wird, mit welcher Wahrscheinlichkeit ein Text KI-generiert ist, dies vortäuschen“ (S. 2).

Fehlklassifikationen entstehen dabei nicht zufällig, sondern folgen systematischen Mustern. Gerade deshalb besteht die Gefahr, dass bestehende Ungleichheiten reproduziert werden, indem Texte bestimmter Gruppen, z.B. Personen mit Sprachvarianten außerhalb des Standarddeutschen oder Schreibende mit nicht-akademischem Bildungshintergrund, häufiger als KI-generiert markiert werden, obwohl sie menschlich verfasst sind. An dieser Stelle rückt somit die zentrale Frage in den Vordergrund: Welche Bias- und Diskriminierungsrisiken gehen mit solchen Detektionslogiken im Hochschulkontext für unterschiedliche Gruppen einher?

Die meisten KI-Anwendungen, von denen wir heute reden, sind datenbasierte Systeme. Als solche lernen sie Muster aus alten Daten, um daraus Klassifikationen, Prognosen oder neue sprachliche oder visuelle Inhalte zu erstellen.
Judith Simon, Professorin für Ethik der Informationstechnologie an der Universität Hamburg

Zunächst ist festzuhalten: KI-Detektoren liefern keine verlässlichen Ergebnisse. Grundsätzlich lassen sich dabei zwei unterschiedliche Arten von Fehlklassifikationen unterscheiden. Falsch-positive Ergebnisse liegen vor, wenn von Menschen verfasste Texte fälschlicherweise als KI-generiert markiert werden. Falsch-negative Ergebnisse hingegen treten auf, wenn KI-generierte Texte nicht als solche erkannt werden und als menschlich verfasst gelten – etwa, weil sie zuvor gezielt verändert oder umformuliert wurden. Empirische Tests zeigen etwa, dass manche Detektoren bei bestimmten Aufgaben eine Falsch-Positiv-Rate von bis zu 50 % aufweisen, also jede zweite menschliche Arbeit fälschlich als KI-basiert markieren.

Besonders betroffen sind laut dem Digitale Lehre Hub Niedersachsen „gut strukturierte Texte“, also gerade jene Arbeiten, die methodisch und sprachlich überzeugen. Internationale Studien bestätigen ebenso, dass verbreitete KI-Detektoren teils nur Trefferquoten von deutlich unter 50 % erreichen und bereits durch geringfügige Veränderungen (z. B. bewusste Rechtschreibfehler) massiv an Treffsicherheit verlieren. Da sich Textgeneratoren zudem kontinuierlich weiterentwickeln, können Detektoren nie dauerhaft zuverlässig sein. Bleibt man in der Logik des Überprüfens und Überführens, bedeutet das: Für jede neue Prüftechnologie entstehen schnell neue Strategien und Werkzeuge, um sie zu umgehen. 

KI-Detektoren sind nicht zuverlässig, auch wenn die Prozentangaben, mit denen angegeben wird, mit welcher Wahrscheinlichkeit ein Text KI-generiert ist, dies vortäuschen.
Kira Baresel, Janine Horn & Susanne Schorer | Digitale Lehre Hub Niedersachsen

Vor diesem Hintergrund stellt sich die Frage, warum Fehlklassifikationen nicht zufällig auftreten, sondern bestimmte Texte und Personengruppen häufiger betreffen als andere. Die Antwort sind Biases, die sich aus den Trainingsdaten und Bewertungslogiken der Detektoren ergeben. Schreibweisen, die davon abweichen, werden mit höherer Wahrscheinlichkeit als KI-generiert eingestuft, auch dann, wenn sie tatsächlich von Menschen stammen.

Darauf weist auch Katharina Mosene, Politikwissenschaftlerin und Forschungs- und Veranstaltungskoordinatorin am Leibniz-Institut für Medienforschung, hin, die betont, dass insbesondere Personen, die nicht in ihrer Muttersprache schreiben, häufiger von falsch-positiven Ergebnissen betroffen sein können. Ihre Texte weichen statistisch häufiger von den Mustern der Trainingskorpora ab, etwa in Satzstruktur oder Wortwahl, obwohl sie eigenständig verfasst sind. Mosene warnt daher davor, dass hier Diskriminierung durch die Verwendung von Technik entsteht und dass der Einsatz von KI-Systemen gesellschaftliche und sprachliche Ungleichheiten reproduziert, auch dann, wenn sie den Anschein von neutraler Technik erwecken. Untersuchungen zu KI-Detektoren im Bildungsbereich bestätigen, dass Texte von Nicht-Muttersprachler:innen deutlich häufiger als KI-generiert eingestuft werden; in einer Studie lag die Falsch-Positiv-Rate in dieser Gruppe bei über 60 %, während sie nach sprachlicher ‚Verbesserung‘ durch ein KI-Tool deutlich sank.

Gerade im Hochschulkontext, wenn es darum geht, Texte einer diversen Studierendenschaft als KI-generiert oder nicht einzustufen, zeigt sich ein zentrales Problem: Wenn KI-Detektoren systematisch bestimmte Schreibweisen häufiger unter Verdacht stellen als andere, können sich bestehende Macht- und Ungleichheitsverhältnisse reproduzieren. Studierende mit unterschiedlichen sprachlichen Hintergründen werden dann nicht unter gleichen Voraussetzungen bewertet, sondern laufen unterschiedlich häufig Gefahr, fälschlich der Täuschung verdächtigt zu werden; mit potenziell erheblichen Folgen für Bewertung, Vertrauen und prüfungsrechtliche Entscheidungen.

Interessenkonflikte und Geschäftslogik

Neben den sozialen Verzerrungen, die sich aus Trainingsdaten und Bewertungslogiken ergeben, gibt es weitere Gründe, die die Zuverlässigkeit von KI-Detektoren in Frage zu stellen. Dazu zählen insbesondere die Geschäftslogiken der Unternehmen, die solche Tools entwickeln und vertreiben. Diese sind relevant, weil sie beeinflussen, wie KI-Detektoren konzipiert sind und wie sie in einem wissenschaftlich geprägten Hochschulalltag eingesetzt werden.

Schauen wir kurz auf ein konkretes Beispiel: QuillBot ist ein frei zugängliches, kostenloses Tool, welches insgesamt acht Funktionen für die Textarbeit anbietet – von Umformulierung über Plagiatsprüfung bis hin zu KI-Detektion und Vermenschlichung KI-generierter Texte. Zu letzterem zählt auch ein sogenannter KI-Humanizer, der darauf ausgelegt ist, KI-generierte Texte so zu verändern, dass sie sprachlich „menschlicher“ wirken und nicht von Detektoren erkannt werden. QuillBot verspricht, schnell bessere Texte zu schreiben, ohne die Idee der Verfasserin grundlegend zu verändern.

Der KI-Detektor wird als „eine besondere Art AI-Detector“ beschrieben, der Muster analysiert, „um die Wahrscheinlichkeit zu schätzen, dass ein Text von einem Menschen geschrieben oder von einer KI generiert wurde“. Laut QuillBot funktioniert dies, weil der Detektor „anhand großer Mengen von Texten trainiert wurde, die von Menschen und KI geschrieben wurden. Er verwendet Metriken wie Perplexität (wie vorhersehbar der Text ist) und Burstiness (wie stark die Satzlänge variiert), um für Maschinen typische Schreibmuster zu identifizieren.“ QuillBot selbst stellt Burstiness und Perplexity als verlässliche Indikatoren dar, räumt aber in der Dokumentation ein, dass keine Methode perfekte Genauigkeit bietet und dass die Einschätzungen letztlich auf Statistiken beruhen.

Anhand dieses Beispiels eröffnet sich ein Problemfeld, welches im Kontext solcher Tools zur kritischen Einordnung steht: Ein und dasselbe Unternehmen bietet sowohl Detektoren an, die KI-generierte Texte als solche erkennen sollen, als auch Werkzeuge, mit denen Texte KI-gestützt erstellt oder umformuliert werden können, und zwar so, dass sie von Detektoren nicht mehr als KI-generiert erkannt werden. Mit anderen Worten: Sie verkaufen sowohl das angebliche Problem als auch die vermeintliche Lösung. Damit entsteht ein Interessenkonflikt: Ist nun ihr Humanizer oder ihr Detektor besser? Aus wirtschaftlicher Sicht liegt es nahe, dass nicht die zuverlässige Aufdeckung im Vordergrund steht, sondern ein Markt bedient wird, der sowohl Erzeugung als auch Verschleierung und Aufdeckung umfasst. Unternehmen wie Quillbot können doppelt an Hochschulen, Dozierenden und Studierenden als Nutzer*innen verdienen, denn alle bezahlen in diesem Szenario für Tools, ohne eindeutig beurteilen zu können, wie belastbar Detektionsergebnisse und Vermenschlichungen sind.

QuillBot schafft ein Problem für die eine Zielgruppe und verkauft es der anderen als Lösung. Diese und ähnliche Plattformen befeuern damit einen Interessenkonflikt, welcher vermuten lässt, dass Detektion nicht nur als Kontrollinstrument, sondern auch als Bestandteil eines breiteren kommerziellen Angebots verstanden werden muss. Ein Upgrade von QuillBots KI-Humanizer, das beispielsweise keine Wörterbegrenzung enthält, kostet im jährlichen Abonnement knapp 100 Euro. So entsteht ein Markt, der von Unsicherheit lebt: Je besser die Humanizer werden, desto stärker steigt die Nachfrage nach Detektoren und umgekehrt. 

Ein und dasselbe Unternehmen bietet sowohl Detektoren an, die KI-generierte Texte als solche erkennen sollen, als auch Werkzeuge, mit denen Texte KI-gestützt erstellt oder umformuliert werden können, und zwar so, dass sie von Detektoren nicht mehr als KI-generiert erkannt werden.

Vor diesem Hintergrund halten wir den Einsatz von KI-Detektoren im Hochschulkontext allenfalls in sehr begrenztem Rahmen für vertretbar. Auch als unterstützendes Instrument in Verbindung mit menschlichem Urteil bleiben grundlegende Probleme bestehen. Schon heute zeigt sich, dass KI-generierte Texte, die besonders menschlich formuliert scheinen, häufig weder von Detektoren noch durch menschliche Einschätzungen als KI-basiert erkannt werden und damit auch nicht als falsch-negative Ergebnisse sichtbar werden. Entsprechend identifizieren Detektionsverfahren vor allem jene KI-Texte, die sprachlich oder stilistisch deutlich auffallen, während „bessere“ KI-Texte eher unerkannt bleiben. Gleichzeitig werden von Studierenden verfasste Texte fälschlicherweise als KI-generiert eingeordnet.

Dadurch kann sich die Wahrnehmung davon, wie gut Menschen KI-Generiertes erkennen können, verzerren: der Eindruck, KI-Texte seien grundsätzlich leicht zu identifizieren, obwohl viele Fälle unentdeckt bleiben, trügt. Das macht deutlich, dass sich Fragen nach Fairness und Verlässlichkeit langfristig nicht allein – oder überhaupt nicht – über Detektionsverfahren beantworten lassen.

Jenseits von Detektion: Prüfungen neu denken

Für Hochschulen und Dozierende bleibt am Ende die Frage, ob es sich überhaupt lohnt und welche Legitimation besteht, KI-Detektoren zu bezahlen, wenn sie lediglich, wie der Digitale Lehre Hub Niedersachsen resümiert,  „ein unzuverlässiges Indiz“ liefern und bestehende Diskriminierungsstrukturen reproduzieren. Aufgrund berechtigter Skepsis gegenüber KI-Detektoren bleibt die grundlegende Herausforderung im Diskurs um generative KI bestehen: Wie lassen sich faire, prüfbare und zugleich zukunftsfähige Prüfungsformen gestalten, in denen die Fähigkeit der Studierenden geprüft wird, Texte zu verfassen, ohne in technologische Kontrolllogiken zu verfallen?

Aktuelle Stellungnahmen, etwa des Deutschen Ethikrats, plädieren eher für transparente Regeln, partizipativ entwickelte Prüfungsformate und systematische Förderung von KI-Kompetenz als für automatisierte „Beweismittel”. Denn selbst wenn Detektoren in bestimmten Fällen rechtmäßig eingesetzt werden könnten, stellt sich eine grundlegende Frage: Welche Form von akademischer Integrität wollen Hochschulen im Zeitalter generativer KI überhaupt schützen und mit welchen Mitteln lässt sich diese Verantwortung besser wahrnehmen als durch technische Verdachtslogiken?

Autor:innen

Inga Gostmann studiert Gender Studies in Bielefeld und ist Mitglied der Arbeitsgruppe „KI in der Hochschulbildung” des deutschen Wissenschaftsrats. Sie engagiert sich neben dem Themenfeld KI in der Bildung auch für Partizipation und mentale Gesundheit an Hochschulen, zum Beispiel beim Hochschulforum Digitalisierung, beim Stifterverband oder an der Uni Bielefeld. Neben ihrem Studium koordiniert Inga den studentischen Austausch in einem von der Stiftung Innovation in der Hochschullehre geförderten Lehrprojekt, BiLinked, bei sich an der Uni.

Lea Hildermeier arbeitet beim Hochschulforum Digitalisierung am Centrum für Hochschulentwicklung (CHE), wo sie in Projekten zu Hochschulpolitik und digitalem Wellbeing tätig ist. Seit mehreren Jahren engagiert sie sich für studentische Perspektiven in der digitalen Hochschulbildung, unter anderem als DigitalChangeMaker. Ihr Schwerpunkt liegt auf Partizipation, mentaler Gesundheit und zukunftsfähiger Lehre. 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert