Zu Besuch bei „Hack my Exam“ – ein Erfahrungsbericht
Zu Besuch bei „Hack my Exam“ – ein Erfahrungsbericht
11.10.23Als ChatGPT Ende 2022 gelauncht wurde, herrschte große Aufregung in der Bildungslandschaft. Das KI-Tool erweckte den Eindruck, dass sich damit nahezu alle schriftlichen Prüfungen lösen ließen. Aber wie sieht es in der Praxis aus? Lässt sich mit ChatGPT wirklich so problemlos in Klausuren schummeln? Um das herauszufinden, war Jens Tobor bei „Hack my Exam“ an der TU Braunschweig. Dort testen Lehrende und Studierende die Funktionalität von KI-Tools anhand von alten Prüfungsaufgaben. Welche – vielleicht auch etwas ernüchternden? – Erkenntnisse daraus gezogen wurden, schildert er in diesem Erfahrungsbericht.
Ich sitze mit vier Studierenden an einem Tisch und beobachte, wie sie gemeinsam die Aufgaben einer Chemieklausur lösen. Dazu nutzen sie eine Reihe von generativen KI-Tools, darunter ChatGPT und PerplexityAI. Mit am Tisch sitzt eine Lehrperson, die neugierig beäugt, welche Lösungsstrategien verfolgt werden. Das klingt nach einer ungewöhnlichen Szenerie. Stattgefunden hat sie beim „Hack My Exam“ an der TU Braunschweig.
Hack My Exam
Doch noch mal ganz von vorne: Ich machte mich also auf den Weg zur TU Braunschweig, genauer zum Studierendenhaus der Fakultät für Maschinenbau. Durch den Zug leicht verspätet angekommen, hörte ich durch die Tür des Veranstaltungsraums bereits Dr. Stefan Böhme und Philipp Preuß, wie sie den Hack gerade anmoderierten. Beide sind im Projekthaus — der medien-didaktischen Unterstützungseinrichtung der TU Braunschweig — tätig. Sie konzipierten und initiierten den Hack. Sie waren es auch, die mich einluden, ihnen und den Teilnehmer:innen des Formats über die Schulter zu schauen. Dieser Einladung bin ich gerne gefolgt.
Nach einem ersten kleinen Startimpuls zum Thema Generative KI durch Stefan sowie einer kurzen Einweisung in den Ablauf des Hacks ging es auch schon los. Rund zwanzig Studierende teilten sich in Teams auf, die im Laufe des Hacks jeweils verschiedene Tischgruppen ansteuern sollten. Jede dieser Tischgruppen wurde von einem der insgesamt sechs Lehrenden betreut. Die Lehrenden aus verschiedenen Fachrichtungen der TU Braunschweig hatten Aufgaben aus ihren alten Klausuren mitgebracht, die nun von den Studierendenteams unter Zeitdruck gelöst werden sollten. Der Clou dabei war, dass die Studierenden bei der Lösungsfindung auf Generative KI-Tools zurückgreifen konnten, die größtenteils auf Large Language Models (LLM) basieren.
Auf den ersten Blick mag es möglich und unproblematisch sein, dass sich die studentischen Teams auch mit fachfremden Aufgaben beschäftigen können — schließlich hilft ja die ‚künstliche Intelligenz‘ mit.
Challenge Accepted! Mit spielerisch-experimenteller Attitüde starteten die Gruppen ihren Lösungsversuch. Unter anderem wurde an einem Tisch an Prüfungsaufgaben im Bereich der pharmazeutischen Chemie getüftelt, an einem anderen Tisch wurden Fragestellungen zur Lehrdidaktik bearbeitet und in der Gruppe nebenan moraltheoretische Konzepte der Entwicklungspsychologie geprüft. Ein bunter Mix an Herausforderungen.
So unterschiedlich die Fächer waren, so unterschiedlich waren auch die Aufgabentypen. Von Multiple-Choice-Entscheidungen über das Formulieren einer Diskussion bis hin zum Überprüfen und Aufstellen von Rechenwegen reichte das Spektrum der zu bearbeitenden Aufgaben. Schnell stellten die Studierenden allerdings ernüchtert fest, dass es nicht funktioniert, die Denkarbeit an Generative KI-Tools auszulagern. Die Aufgabenstellung zum Prompt zu machen und ein zufriedenstellendes Ergebnis zu erwarten, funktionierte nur selten und variierte je nach Aufgabentyp und inhaltlicher Spezifik. Sich der richtigen Lösung anzunähern — das wurde allen Teilnehmer:innen mehr und mehr klar — funktioniert in der Regel nur, wenn …
- den Tools eine zusätzliche Kontextualisierung geliefert wird,
- die Aufgabe ggf. durch weitere Teilschritte untergliedert werden,
- jeder dieser Schritte kritisch begutachtet wird
- und – wichtigster Punkt – ein Bewusstsein dafür vorhanden ist, wo die Grenzen der Funktionsweise der Tools verlaufen und stattdessen nur die eigene (Beurteilungs-)Kompetenz weiterhelfen kann.
Die Erkenntnis, dass für die Berechnung des pH-Werts des Magensafts nach Einnahme einer bestimmten Tablette gegen Sodbrennen (Pharmazeutische Chemie) die individuelle Fachkompetenz, insbesondere die Beurteilungskompetenz, unabdingbar war, entzauberte schnell die Annahme, dass dies als Team ohne Chemiestudent:in möglich gewesen wäre. Denn wer sollte beurteilen, ob dem Ergebnisvorschlag der KI-Tools zu trauen ist? In solchen Situationen gab die Lehrperson dann gerne mal einen kleinen Hinweis, ob man auf dem richtigen Weg war.
Prüfungen im Zeitalter der KI
Diese und weitere Erkenntnisse hielten die Studierenden in kleinen Lernportfolios fest. Die Lernportfolios hatten aber noch einen weiteren Zweck: In anonymisierter Form sollen sie Klarheit in die bisweilen undurchsichtige Diskussion rund im KI und Prüfungen an der TU Braunschweig bringen. Sind die Tools (Stand Juni 2023) in der Lage, die Prüfungsaufgaben der Lehrenden zu lösen? Welche Schlüsse lassen sich daraus perspektivisch für den Umgang und die Gestaltung der Prüfungen von morgen ziehen? Wie mögen passende Einverständniserklärungen und Richtlinien für den Umgang mit KI im Prüfungskontext aussehen?
Nach dem „Hack my Exam“ spreche ich in einem Interview mit den beiden Initiatoren Stefan und Philipp darüber, welche Schlüsse und Konsequenzen aus dem Experiment gezogen werden können:
KI-Tools kommen mit verschiedenen Aufgabentypen unterschiedlich gut zurecht.
Während die Unterstützung bei reinen Wissensabfragen besser funktioniert, stoßen die Tools bei komplexeren fallbasierten Aufgabentypen schnell an ihre Grenzen.
Ob Aufgaben erfolgreich mit KI gelöst werden, hängt von der Nutzungskompetenz der User:innen und deren fachlichem Background ab.
Durch ein Verständnis dessen, was in einer fachspezifischen Aufgabe gefordert ist, erweitert sich das Repertoire an Lösungsstrategien und somit die Fähigkeit, sinnvolle Prompts zu formulieren. Dazu müssen die Studierenden aber auch wissen, wie Prompts zu formulieren sind und wo die im KI-System angelegten Grenzen für einen sinnvollen Einsatz der Tools liegen. Selbstverständlich ist gerade letzteres nicht nur für die Studierenden wichtig, sondern gilt gleichermaßen für die Lehrenden. Dazu berichtet Philipp:
„Es werden zukünftig unterschiedliche Vertiefungsformate angeboten, um beiden Zielgruppen eine spezifische Professionalisierung zu diesem Thema zu ermöglichen. Aktuell wird vom Projekthaus ein Media Lab eingerichtet, das sich unter anderem gezielt mit Generativer KI und weiteren „Emerging Technologies“ beschäftigen wird.“
Viele Prüfungsformate fallen nicht von heute auf morgen weg.
Viele Aufgaben beim „Hack my Exam“ haben bewiesen, dass sie (noch) genügend Komplexität und Kniff aufweisen, um nicht vollständig und richtig mithilfe der Tools gelöst zu werden. Dennoch heißt das nicht, dass sich in Sachen Prüfungsgestaltung und -inhalt nichts ändern sollte. Zum einen vor dem Hintergrund der Entwicklung ‚intelligenterer‘ KI-Systeme, die die Prüfungsaufgaben des Hacks vermutlich schon bald deutlich besser lösen werden, zum anderen im Hinblick auf die Ermittlung der Nutzungskompetenz der Tools anhand konkreter Prüfungsszenarien. Für eine notwendige Anpassung der Prüfungsgestaltung gebe es aber „eine gewisse Übergangszeit, in der wir das Ganze umbauen können”, so Stefan.
Wenn KI-Tools uns in beruflichen Kontexten begleiten werden, dann sollten sie perspektivisch auch für Prüfungen zugelassen werden, …
… die im Kern eine möglichst authentische Simulation der praktischen Herausforderungen von morgen anstreben. Gerade durch authentische Prüfungen, in denen KI-Tools vorgesehen sind, können Anwendungs- und Reflexionskompetenzen mitbestimmt und den Lernenden zurückgespiegelt werden. Dies soll nicht ausschließen, dass es in anderen Prüfungsszenarien nicht sinnvoll sein kann, den Einsatz der Tools bewusst auch auszuschließen, z.B. wenn es um die Sicherstellung von Basiskompetenzen eines jeweiligen Fachgebietes geht, die teilweise durch KI-Tools substituiert werden können, aber zumindest für eine adäquate Reflexion des KI-Outputs von uns Menschen selbst beherrscht werden müssen.
Höhere Lernziele – fruchtbarer Einsatz von KI.
Während es natürlich möglich wäre, bisherige Prüfungsformate in überwachten Vor-Ort-Settings an der Hochschule beizubehalten, indem man die Tools gezielt aus den Prüfungsräumen verbannt, zeigt sich zusätzlich, dass Prüfungen, die höhere kognitive Fähigkeiten erfordern (Analyse, Synthese, Bewertung; Bloom et al. 1956), derzeit noch eine große menschliche Eigenleistung erfordern. In diesem Zusammenhang erscheint der verantwortungsvolle und transparente Einsatz von KI-Tools unproblematisch (siehe Beyermann 2023). Stattdessen unterstützen die Tools sogar sinnvoll das Erreichen höherer Lernziele, indem z.B. Denk- und Arbeitsschritte, die der Prüfling bereits beherrscht, an sie ausgelagert werden können oder indem sie Inspiration liefern und Alternativen anbieten.
KI-Tools erfordern ein (erneutes) Nachdenken über Kompetenzorientierung.
Die Auseinandersetzung mit den Tools im Prüfungskontext schärft den Blick für die Frage, welche Kompetenzen eigentlich geprüft werden sollen. Stefan nennt hier folgendes Beispiel:
„Wenn ich eine Konstruktionsaufgabe in den Ingenieurwissenschaften habe, die auf Englisch abgegeben werden soll, da sie in einem internationalen Projekt eingebettet ist, ist die Nutzung eines Übersetzungstools eventuell problemlos möglich. In einem Anglistik-Seminar, in dem explizit Sprachkenntnisse geprüft werden, erscheint der Toolgebrauch währenddessen nicht sinnvoll.“
Das Mitdenken der Tools bei der Beantwortung der Frage nach den zu prüfenden Kompetenzen wird so zu einer konstruktiven Ausgangslage einer kompetenzorientierten Prüfungsgestaltung.
Blick in die Blackbox: Prüfungen auf Augenhöhe
Abseits der Thematik Generative KI erfüllte der Hack noch eine weitere wichtige Funktion, nämlich einen hierarchiefreien Austausch rund um das Prüfen zu ermöglichen. Beide Seiten, sowohl die zu prüfenden Studierenden als auch die prüfenden Lehrenden, bekamen Einblicke voneinander, die im eigentlichen Prüfungshandeln wesentlich distanzierter ablaufen. Auf der einen Seite: Was denken sich die Lehrenden bei der Konstruktion der Aufgabenstellung? Was implizieren bestimmte Signalwörter in Fragestellungen? Aus was und wie setzt sich die Bewertung zusammen?
Auf der anderen Seite konnten die Lehrenden den Studierenden beim Denken zuhören. So konnte ein ungezwungener Austausch über Aufgabenverständnis und Lösungsstrategien stattfinden. Resultierend gelang es, für alle Teilnehmer:innen ein wenig Licht in die Blackbox des Prüfens zu bringen – eine wichtige Grundvoraussetzung für eine weitere Auseinandersetzung mit der Prüfungskultur an Hochschulen.
Diese wertvolle Situation konnte durch die bewusst spielerische Gestaltung des Formats Hack My Exam geschaffen werden. „Es soll Spaß machen! Man soll gechallenged werden“, so Stefan und Philipp. Ich kann bestätigen — es hat Spaß gemacht. Die Aktualität des Themas KI spielt den beiden dabei bewusst in die Karten. Für mich ein tolles Beispiel für eine gelungene Partizipation der Hochschule durch ihre didaktische Unterstützungseinrichtung.
Wie es weiter geht
Für den nächsten Hack – der laut den beiden Hochschuldidaktikern auf jeden Fall kommen wird – wird ein fachspezifischer Fokus gewählt, um das Format noch stärker an die Prüfungsrealität anzunähern. So erhofft man sich noch detailliertere Aussagen für die einzelnen Disziplinen treffen zu können. Dies, gepaart mit einer stärkeren Gamification des Hacks durch ein Punktesystem, soll den Challenge-Charakter noch stärker herausstellen. Das klingt nach einer sinnvollen Weiterentwicklung und deshalb bin ich beim nächsten Hack My Exam gerne wieder dabei.
Verweise
Bloom, B. S., Engelhart, M. D., Furst, E. J., Hill, W. H. & Krathwohl, D. R. (Hrsg.) (1956). Taxonomy of Educational Objectives. The Classification of Educational Goals, Handbook I: Cognitive Domain. David McKay Company, Inc.