„Erstell mir eine Hausarbeit“ – ein Experiment in der Soziologie
„Erstell mir eine Hausarbeit“ – ein Experiment in der Soziologie
21.04.26
Die KI-Nutzung bei Haus- und Abschlussarbeiten stellt die Lehre vor bisher ungelöste Probleme, entsprechend intensiv sind die Diskussionen dazu an den Hochschulen. Dieser Beitrag veranschaulicht die Herausforderungen mit KI-generierten Hausarbeiten und ihrer Bewertung am Beispiel des Fachs Soziologie. Die Ergebnisse lassen sich zumindest in der Grundaussage auch auf andere sozial- oder geisteswissenschaftliche Fächer übertragen.
Warum ist KI-Nutzung bei der Prüfungsform Hausarbeit problematisch?
Die Soziologie ist eine ganz wesentlich auf Texten basierende Wissenschaft. Das Schreiben von Hausarbeiten ist zentraler Bestandteil des Studiums, nicht nur um Inhalte zu reproduzieren und zu diskutieren, sondern auch um die Schreibkompetenz zu trainieren und zu überprüfen. Das Ziel von Hausarbeiten aus Sicht der Lehrenden ist es, das soziologische Fachwissen von Studierenden und ihren eigenständigen Umgang in der theoretischen oder empirischen Anwendung zu prüfen. Dabei sollen neben inhaltlichen und formalen Aspekten auch die Standards des wissenschaftlichen Arbeitens eingehalten werden, um dadurch unter anderem die Gleichbehandlung der Studierenden bei dieser Prüfungsform zu gewährleisten.
Durch die bisher ungebrochene Steigerung der Leistungsfähigkeit von Large Language Models (LLMs) gerät die Hausarbeit als Nachweis für diese Kompetenzen massiv unter Druck. Bisher galt der Schreibprozess als unmittelbarer Ausdruck des Denkprozesses und der eigenständigen Auseinandersetzung mit einem Thema. Wenn nun durch den Einsatz von KI das Erstellen eines Textes nicht mehr die kognitive Durchdringung des Stoffes voraussetzt – ist die Hausarbeit dann noch ein sinnvolles Prüfungsformat für die Vermittlung von Schreib- und Diskussionskompetenzen?
In der Diskussion um KI und Hausarbeiten an Hochschulen wird argumentiert: Wenn es den Studierenden mit Hilfe von KI gelingt, eine gute Hausarbeit zu schreiben, dann sagt dies auch etwas über ihre Fachkompetenz aus, mit der sie die KI dazu angeleitet haben. Nur wenn dieses Argument auch tatsächlich zutrifft, könnte die Prüfungsform Hausarbeit in der aktuellen Form erhalten bleiben und es sinnvoll sein, den Studierenden das Arbeiten mit KI an Hausarbeiten zu ermöglichen. Deshalb wollte ich dieses Argument mit einem Experiment empirisch überprüfen. Die Leitfrage dabei war: Sagt eine KI-generierte Hausarbeit etwas über die Fachkompetenz der KI-Nutzenden aus?
Der Versuchsaufbau
Für dieses Experiment wurden vier Hausarbeiten für soziologische Module an der FernUniversität in Hagen vollständig mit KI generiert. Die Module habe ich aus den Bachelor- und Master-Studiengängen ausgewählt und die öffentlich zugänglichen Informationen zu den Modulen als Input für die KI verwendet. Für die Generierung wurde mit Claude Sonnet 4.5 (im kostenpflichtigen Pro-Abo) ein kommerzielles KI-Modell mit großem Kontextfenster, Rechercheagent und Reasoning-Fähigkeiten verwendet.
Das selbstgesetzte Ziel des Versuchs war es, die Hausarbeiten ohne jeden fachwissenschaftlichen Input von meiner Seite zu erstellen. Es wurde also weder das Thema der Arbeit vorgegeben noch in irgendeiner anderen Weise inhaltlich korrigierend eingegriffen. Statt fachlich-inhaltlicher Anweisungen habe ich mich darauf konzentriert, dem verwendeten KI-Modell detaillierte Schritt-für-Schritt-Arbeitsanweisungen zu geben. Dabei habe ich mich an bestehenden Hinweisen und Leitfäden zur Erstellung von Hausarbeiten orientiert.
Dadurch, dass für die Erstellung kein soziologisches Fachwissen verwendet wurde, können aus den so generierten Hausarbeiten keinerlei Rückschlüsse auf die fachwissenschaftliche Kompetenz von Promptenden gezogen werden. Stattdessen sind die verwendeten Prompts so allgemein gehalten, dass sie auf unterschiedliche Module und Themen angewandt werden können.
Das Erstellen der Arbeitsanweisungen an die KI in Form von umfangreichen Prompts erfordert allerdings vertiefte Kenntnisse über Strategien bei der Hausarbeitserstellung, zusätzliche Anweisungen zum Umgang mit häufigen Problemen der KI, insbesondere bei der Literaturarbeit, sowie eine Priorisierung von Anforderungen.
Der Inhalt der KI-Texte
Die vier mit KI generierten Hausarbeiten sind diesem Artikel am Ende beigefügt, sodass alle Interessierten sie hinsichtlich ihrer inhaltlichen Qualität überprüfen können, wozu ich ausdrücklich einladen möchte. Die Arbeiten wurden von mir keiner systematischen Bewertung unterzogen, da ich nicht für alle Themenbereiche über die inhaltliche Expertise verfüge. Aber als langjähriger Prüfer am Institut für Soziologie schätze ich die Inhalte der Hausarbeiten als gut genug ein, um damit mindestens die Prüfung zu bestehen. Alle Hausarbeiten haben jeweils eine zum Modul passende Fragestellung und eine angemessene Struktur, um diese zu bearbeiten. Es werden geeignete soziologische Theorien herangezogen, um den Gegenstand auf dieser Basis zu analysieren. Gerade die interessanten Fragestellungen und der Aufbau der Arbeiten sind aus meiner Sicht ihre Stärken.
Lässt sich die KI-Nutzung durch Fehler erkennen?
Wenn sich nun mittels aktueller kommerzieller KI-Angebote Hausarbeiten generieren lassen und diese hinsichtlich Inhalt und Aufbau zum Bestehen von Prüfungen geeignet erscheinen, stellt sich die Frage, ob erkannt werden kann, dass sie von einer KI erstellt wurden. Technische Wege zum Erkennnen von KI-generierten Texten (z. B. Detektoren) haben, wie verschiedentlich gezeigt wurde, Schwächen.
Ein anderer Ansatzpunkt für das Aufdecken besteht in Mängeln beim wissenschaftlichen Arbeiten. Insbesondere fehlerhafte Literaturverzeichnisse in Form von halluzinierter Literatur werden gerne als Erkennungsmerkmal für KI-Generate genannt. Deshalb habe ich die vier KI-generierten Arbeiten in dieser Hinsicht einer genaueren Prüfung unterzogen:
Dazu wurde zunächst überprüft, ob die Angaben im Literaturverzeichnis korrekt sind (Felicia Bravo hat dankenswerterweise bei dieser Überprüfung geholfen). Die vier Hausarbeiten enthalten insgesamt 101 Quellen in den Literaturverzeichnissen. Die Angaben zu diesen Quellen wurden in vier Kategorien eingeteilt. Als (nahezu) fehlerfrei galten Einträge, die entweder vollständig korrekt waren oder nur geringfügige Abweichungen aufwiesen, wie z. B. eine fehlende Auflagenangabe. In diese Kategorie fielen 63 der Einträge. Unter kleinen Fehlern wurden beispielsweise Fehler bei Autor:innennamen und Kürzungen im Titel gefasst. Dies betraf 30 Einträge. Als gravierend wurden Fehler klassifiziert, wenn die Angaben zwar noch mit einer existierenden Quelle korrespondierten, aber erhebliche Abweichungen aufwiesen. Sechs Einträge fielen in diese Kategorie.
Als halluziniert wurden Quellenangaben eingestuft, bei denen keine entsprechende Quelle gefunden werden konnte. Lediglich bei zwei Einträgen handelte es sich um solche Halluzinationen. Zusammenfassend kann für die Literaturverzeichnisse festgehalten werden, dass grob fehlerhafte Angaben bei der KI-Generierung nicht (mehr) die Regel sind und – mit Ausnahme der zwei halluzinierten Quellen – kein zuverlässiges Erkennungsmerkmal für KI-Nutzung bieten. Auch in studentischen Hausarbeiten und ganz generell in von Menschen erstellten Literaturverzeichnissen kommen Fehler vor.
Im zweiten Schritt wurde die Kongruenz zwischen den Belegen im Text der Hausarbeiten und dem Literaturverzeichnis überprüft. Dabei wurde abgeglichen, ob für jeden der 316 Belege im Text auch eine entsprechende Quelle im Literaturverzeichnis existiert. Für 305 Belege gibt es einen entsprechenden Eintrag im Literaturverzeichnis. Somit bietet auch dieser Prüfschritt keine verlässliche Möglichkeit zur Identifikation KI-generierter Hausarbeiten.
Im dritten und letzten Schritt wurde überprüft, ob die wörtlichen Zitate in den angegebenen Quellen existieren. Erst bei dieser tiefgehenden Überprüfung offenbaren sich die gravierenden Schwachstellen der KI-Hausarbeiten. Von insgesamt 56 wörtlichen Zitaten in den vier Hausarbeiten konnten lediglich 15 tatsächlich in den angegebenen Quellen nachgewiesen werden.
Da bereits diese Überprüfung der wörtlichen Zitate sehr zeitaufwändig war, wurde auf eine weitergehende Überprüfung der indirekten Zitate verzichtet. Es ist anzunehmen, dass sich dort ebenso klar die Schwachstellen der generierten Hausarbeiten zeigen. Das Problem dieses Prüfungsschritts ist der erhebliche Aufwand bei der Überprüfung und die Tatsache, dass sich dies nur durch einen Abgleich mit den Quellen ermitteln lässt. Die überwiegend halluzinierten Zitate waren allesamt inhaltlich plausibel und hätten durchaus so existieren können.
Als Fazit für die Überprüfung der Literaturarbeit in den vier Hausarbeiten lässt sich festhalten, dass es nicht mehr so einfach wie in der Anfangszeit der generativen KI ist, eine künstlich erstellte Hausarbeit an offensichtlichen Fehlern zu erkennen. Wenn die Quellen im Literaturverzeichnis existieren, wie es bei den vier Hausarbeiten ganz überwiegend der Fall ist, steigt der Überprüfungsaufwand stark an, da ein Abgleich mit den angegebenen Quellen notwendig ist. Dies ist als Regelüberprüfung für eingereichte Hausarbeiten ein unrealistischer Aufwand und auch bei der Literaturbeschaffung ein zeitliches Problem. Je mehr diese Formalia überprüft werden, desto weniger Zeit bleibt für die inhaltliche Auseinandersetzung mit den studentischen Hausarbeiten.
Was folgt daraus? Eine provokante These
Wie dieses Experiment gezeigt hat, ist es mit dem aktuellen Stand der Technik möglich, Hausarbeiten vollständig durch KI generieren zu lassen. Die Fragestellung, der Aufbau und der Inhalt dieser Arbeiten können ausreichen, um Prüfungen zu bestehen. Die KI-Generierung zeigt in überraschenden Bereichen Stärken, insbesondere bei der Themenfindung mit einer gelungenen Kombination aus theoretischem Ansatz und Gegenstand sowie einem stringenten Aufbau. Die Mängel beim wissenschaftlichen Arbeiten (Zitate und Belege) sind nur mit erheblichem Aufwand zu erkennen.
Wenn Hausarbeiten vollständig mit KI generiert werden, dann wird mit der Prüfung nicht mehr die Fachkompetenz der Studierenden überprüft. Daraus folgt, dass es keine sinnvolle Lösung ist, die Hausarbeit/Abschlussarbeit beizubehalten und den KI-Einsatz für die Prüfungsform zu erlauben. Dabei ist es auch egal, ob der Einsatz nur in begrenztem Rahmen oder einfach pauschal erlaubt ist, da sich der Umfang der Nutzung nicht überprüfen lässt. Denn wie dieses Experiment verdeutlicht, wird dann nicht die Fachkompetenz überprüft – sondern die KI-Kompetenz beziehungsweise die Fähigkeit (und Finanzkraft), KI-Writing-Anbieter anzuheuern.
Es ist keine Lösung, das inhaltliche und formale Niveau der KI-generierten Hausarbeiten als neuen Mindeststandard für solche schriftlichen Arbeiten anzusetzen und dann von allen Studierenden bessere Hausarbeiten zu verlangen. Dies würde viele Studierende überfordern und hätte als nicht-intendierte Handlungsfolge einen stärkeren Druck auf die Studierenden hin zu (mehr) KI-Einsatz bei der Hausarbeit.
Aus dem Versuch ergibt sich die Frage, welche Merkmale uns beim Erkennen echter studentischer Leistungen helfen können. Ein Vorschlag: Während KI-Texte oft durch eine glatte, fehlerfreie und generische Sprache auffallen, zeichnen sich selbsterstellte Arbeiten häufig durch individuelle sprachliche Nuancen oder sogar spezifische Fehler, die in ihrer Art nicht künstlich generiert wirken, aus. Ein weiteres Merkmal studentischer Hausarbeiten ist zudem eine Literaturauswahl, die sich – wenngleich von geringerem Umfang – enger an den konkreten, in den Modulen präsentierten Theorien orientiert.
Auch die Struktur studentischer Hausarbeiten ist weniger stringent, die Übergänge zwischen Sinnabschnitten sind nicht immer argumentativ so gerahmt wie in den generierten Hausarbeiten. Es drängt sich eine provokante These auf: Teilweise sind studentische Hausarbeiten daran zu erkennen, dass das Niveau zu niedrig ist, um als KI-Produkt durchzugehen – ein Umstand, der die Bewertung in Zukunft vor absurde Herausforderungen stellt.
Eine mögliche Lösung ist die Fokussierung auf das Betreuen während der Erstellung. Die Umstellung zu einer solchen Prozessprüfung ist ein sinnvoller Weg, er wird jedoch mit einer massiven Steigerung des Ressourceneinsatzes einhergehen: Wenn nicht mehr das fertige Produkt, sondern der Weg dorthin bewertet werden soll, erfordert dies eine deutlich engere Betreuung und mehr Arbeitszeit, was mit der aktuellen Prüfungsdichte, der personellen Ausstattung und den daraus resultierenden Betreuungsschlüsseln nicht zu leisten ist.
Fazit
Mit dem hier durchgeführten Versuch wird deutlich, dass es nicht darum geht, ob Haus- und Abschlussarbeiten (in ihrer jetzigen Form) als Prüfung unhaltbar werden, sondern wann dieser Punkt erreicht wird. Die rein schriftliche Prüfungsleistung ohne Aufsicht oder erheblich intensivere Betreuung ist perspektivisch nicht mehr sinnvoll. Denn mit der weiteren Verbreitung von KI-Wissen und mit der Steigerung der technischen Leistungsfähigkeit der verfügbaren KI-Tools wird es immer einfacher und voraussetzungsloser, wissenschaftliche Haus- und Abschlussarbeiten mit Minimalaufwand generieren zu lassen.
Dieser Beitrag liefert keine Lösungen, er soll das Problem näher beschreiben und für das Dilemma sensibilisieren. Im Status quo dieser Prüfungsformen ist es weder sinnvoll, die KI-Nutzung einfach zu erlauben, noch, sie zu verbieten. Denn das Überprüfen, ob KI zum Einsatz kam, ist nicht zweifelsfrei möglich. Damit entfällt dieses Merkmal als zulässiges Bewertungskriterium. Es muss also um eine andere Gestaltung von Prüfungen gehen – keine einfache Aufgabe.
Autor

Benedikt Engelmeier ist wissenschaftlicher Mitarbeiter im Lehrgebiet für Organisationssoziologie und qualitative Methoden an der FernUniversität in Hagen. Dort erforscht er die Arbeit von Betriebsräten und beschäftigt sich darüber hinaus mit den Möglichkeiten und Grenzen des Einsatzes von Künstlicher Intelligenz in Forschung, Lehre und Prüfungen.
Roland Böttcher 
Jens Tobor 
Malte Miram 