Die Bereitstellung generativer KI in Hochschulen: Was ist möglich und was wünschenswert?
Die Bereitstellung generativer KI in Hochschulen: Was ist möglich und was wünschenswert?
28.02.24Die deutschen Hochschulen stehen vor der Herausforderung, Tools auf Basis generativer Künstlicher Intelligenz (KI) für Forschung, Lehre und Verwaltung zugänglich zu machen. Im Mittelpunkt steht dabei derzeit die Zugänglichkeit von kommerziell angebotenen Tools wie ChatGPT. Zunehmend rückt in den Diskussionen aber auch die Frage nicht-kommerzieller, Open-Source-basierter Lösungen in den Blick. Welche Optionen gibt es, was sind die Vor- und Nachteile und welche Rolle spielt hierbei hochschulübergreifende Zusammenarbeit?
Dr. Peter Salden, Dr. Malte Persike und Jonas Leschke geben in diesem Beitrag einen Überblick und ordnen ein, inwieweit nicht-kommerzielle, Open-Source-basierte Anwendungen eine sinnvolle Alternative an Hochschule sein können.
Generative KI: ab jetzt ein Dauerthema für Hochschulen
Seit der Veröffentlichung von ChatGPT im November 2022 ist generative Künstliche Intelligenz (KI) in allen Bereichen der Hochschulen angekommen. Das erste Jahr nach der Veröffentlichung war geprägt von Diskussionen darüber, worin Risiken und Potenziale der neuen Technik liegen. Inzwischen ist klar: Generative KI und darauf basierende Anwendungen werden dauerhaft auch in Hochschulen zum Einsatz kommen. Dies gilt auf allen Ebenen – in Studium und Lehre, in der Forschung sowie in der Verwaltung.
- Studium und Lehre: Studierende sind schon jetzt diejenige Gruppe, die generative KI vergleichsweise intensiv nutzt, beispielsweise zur Klärung von Verständnisfragen, für Literaturrecherchen, für Übersetzungen und um wissenschaftliche Texte zu analysieren, zu verarbeiten und zu erstellen, wie u.a. eine Studie der Hochschule Darmstadt zeigt. Auch deshalb ist es wichtig, dass der Umgang mit den Tools in der Lehre thematisiert und idealerweise auch praktisch geübt wird. Generative KI muss also für Lehr- und Lernzwecke rechtskonform einsetzbar sein – und das auch so, dass die Qualität der genutzten Tools nicht vom persönlichen Geldbeutel abhängt (Stichwort: Bildungsgerechtigkeit).
- Forschung: In ihrer Stellungnahme zum Einfluss generativer Modelle in der Wissenschaft hat die Deutsche Forschungsgemeinschaft (DFG) sich positioniert, dass generative KI durchaus für wissenschaftliche Arbeiten genutzt werden kann. Dass dies bereits geschieht, machte plakativ die Zeitschrift „Nature“ deutlich, als sie jüngst im Zusammenhang mit der Auszeichnung der zehn einflussreichsten Wissenschaftler:innen der Welt auch einen elften Platz vergab – an ChatGPT. Forschende benötigen Zugang zu generativer KI also nicht nur, weil diese für sie ein Forschungsgegenstand sein kann. Vielmehr kann sie voraussichtlich in allen Fächern zukünftig ein Werkzeug für jedwede Forschungsarbeit sein.
- Verwaltung: Auch in der Verwaltung steigt das Interesse an generativer KI. Dabei geht es um mehr als nur um Unterstützung bei der Erstellung von Formularen und Vermerken: So können Chatbots auf Basis generativer KI mit konkretem Faktenwissen ausgestattet werden, um die Wahrscheinlichkeit der vielfach diskutierten Halluzinationen oder Konfabulationen zu reduzieren. Diese so genannten „Embeddings“ ermöglichen es, die KI um hochschuleigenes Material zu erweitern, um beispielsweise wiederkehrende Fragen in der Studienberatung zu beantworten oder eine effiziente Interaktion mit den Inhalten von Verwaltungsdokumenten zu ermöglichen.
Der Status Quo: individuelle Bereitstellung und Nutzung
Je stärker die Relevanz von generativer KI für Hochschulen ins Bewusstsein dringt, desto dringlicher stellt sich die Frage, wie die Technik bzw. auf ihr basierende Anwendungen den Studierenden, Lehrenden, Forschenden sowie der Verwaltung rechtskonform und ohne individuelle Kosten zur Verfügung gestellt werden kann. Aktuell improvisieren die meisten Hochschulen an dieser Stelle: Teils verweisen sie für die Nutzung auf kostenfreie Angebote, teils zahlen sie die Nutzungsgebühren kostenpflichtiger Tools für ausgewählte Mitarbeiter:innen, teils werden Rechner mit relevanten Programmen in Bibliotheken zur Verfügung gestellt. In vielen Fällen erwerben Mitarbeitende oder Studierende auf eigene Kosten Lizenzen, um den vollen Funktionsumfang der Tools nutzen zu können.
Dauerhaft tragfähig sind diese Herangehensweisen nicht, da Probleme auf unterschiedlichen Ebenen entstehen. So werden gerade bei kostenfreien Tools die Eingabedaten häufig für unterschiedliche Zwecke weiterverwendet. Bei anderen Tools müssen vor der Nutzung personenbezogene Daten wie z.B. eine Telefonnummer angegeben werden. Private Kosten sind zudem nicht mit dem Gedanken der Chancengerechtigkeit vereinbar. Nicht zuletzt erscheint der Kauf einer großen Zahl von Einzellizenzen auch aus Kostenperspektive nicht als optimale Variante.
Was tun? Die Antwort auf diese Frage ist keineswegs einfach, da es unterschiedliche Wege für eine datenschutzkonforme, rechtlich unbedenkliche und nachhaltig umsetzbare Bereitstellung von generativer KI gibt.
Kooperation mit kommerziellen Anbietern
Besonders populär sind mit Blick auf generative KI weiterhin die Angebote des amerikanischen Unternehmens OpenAI, dessen KI-Werkzeuge auf einer Azure-basierten Supercomputing Plattform der Firma Microsoft ausgeführt werden. Wie auch andere KI-Anbieter macht OpenAI die eigenen Sprachmodelle über eine Programmierschnittstelle (API) zugänglich. Einfach gesprochen ermöglicht dies, dass eine Institution – Hochschulen eingeschlossen – eine eigene Einstiegsseite (ein Web-Interface) zwischen Nutzer:innen und einen Dienst wie ChatGPT stellen können, wobei die persönliche Anmeldung an dieser Einstiegsseite erfolgt – nicht erst bei ChatGPT. Die Institutionen nehmen dabei den Status eines normalen „zahlenden Kunden“ ein, der eine Nutzungslizenz per Kreditkarte bezahlt.
Ein großer Vorteil dieser Lösung besteht darin, dass die persönlichen Anmeldedaten und weitere persönliche Metadaten nicht weitergereicht werden – auf die Server der KI-Anbieter gelangt nur der Prompt als Anfrage aus der Institution. Die KI-Anbieter erfahren also grundsätzlich nicht, welche Einzelperson eine Anfrage an ChatGPT gestellt hat. Zudem kann bei dieser Lösung (wie auch bei den individuellen Bezahlaccounts) verhindert werden, dass die Input-Daten der Nutzer:innen vom Anbieter beispielsweise für das Training des KI-Modells weiterverwendet werden. In vielen Fällen ist es aber so, dass die Nutzungserfahrung für die User:innen dadurch zum Teil deutlich beeinträchtigt wird, indem bspw. keine Chat-Historie zur Verfügung steht.
Die Zugänge zu ChatGPT direkt über OpenAI oder mittelbar über Microsoft unterscheiden sich in der Lokation der Server, auf denen die KI-Modelle ihre Daten verarbeiten. Mit OpenAI ausgetauschte Daten können auch auf Azure-Servern in Nicht-EU Ländern verarbeitet werden, während die Datenverarbeitung für die von Microsoft angebotenen KI-Modelle auf die EU beschränkt werden kann.
Erste Datenschützer:innen halten die Nutzung von Large-Language-Modellen über die API für vertretbar, wenn die Nutzungsbedingungen der Hochschulen klare Vorgaben für eine datenschutzkonforme Verwendung der Dienste machen, z.B. indem sie die Übertragung personenbezogener oder anderweitig sensibler Daten als Teil von Prompts verbieten.
Im Schulbereich hat dies dazu geführt, dass kommerzielle Anbieter wie z.B. fobizz entsprechende Interfaces aufgebaut haben, wobei die Institutionen die Kosten tragen und die Tools ihren Nutzer:innen dann frei zur Verfügung stellen. Auch Hochschulen sind teils mit entsprechenden Anbietern in Kontakt. Anders als Schulen haben die Hochschulen aber in der Regel eine eigene IT, weshalb sie in der Lage sind, die technisch letztlich nicht besonders komplizierte API-Anbindung selbst vorzunehmen (siehe z.B. die Lösung HAWKI).
Das bedeutet allerdings nicht, dass dieser Weg für Hochschulen ohne Stolpersteine wäre. Denn vor der Inbetriebnahme stehen Klärungsprozesse u.a. mit Datenschutzbeauftragten, Personalräten und anderen Gremien sowie die Bereitstellung von Informationsangeboten für eine sachgemäße Nutzung. Vor allem aber stellt sich die Kostenfrage, da die Verarbeitung der Chat-Anfragen durch kommerzielle Anbieter kostenpflichtig ist. Im Vergleich mit klassischen Softwarelizenzen an Hochschulen sind die Bedingungen hierfür ungewöhnlich: Abgerechnet wird die Nutzung nicht über einen Pauschalpreis oder pro User, sondern nach Anfrageaufkommen. Die Abrechnungseinheit ist hier meist das so genannte „Token“, das im Durchschnitt etwa einem dreiviertel Wort in englischer Sprache und damit ungefähr einem halben deutschen Wort entspricht. Je mehr Token für eine Hochschule verarbeitet werden, desto teurer wird es. Auch wenn noch umfangreiche Erfahrungswerte fehlen, zeichnet sich ab, dass die Kosten gerade bei großen Hochschulen pro Monat in den fünfstelligen Bereich wachsen können. Hochschulen gehen deshalb überwiegend noch vorsichtig die ersten Schritte, deckeln die Maximalzahl der zulässigen Token, begrenzen die Gruppe der Nutzungsberechtigten oder schränken den Zugang zu den teuren (aber auch besonders leistungsfähigen) Modellen ein.
Kommerzielle Lösungen kündigen sich derzeit aber auch auf anderen Wegen an. So hat beispielsweise Microsoft mit dem sog. „Copilot 365“ die Anwendungen von OpenAI in die auch für Hochschulen maßgeblichen Office-Produkte integriert – allerdings sind diese an den Hochschulen in der Regel noch nicht zugänglich und aktuell mit erheblichen Kosten verbunden. Auch unabhängig davon geht Microsoft nicht zuletzt in seiner Rolle als Investor bei OpenAI derzeit auf Hochschulen zu, um die Anwendungen kommerziell zu verwerten.
Denkbar wäre, hochschulspezifische Lösungen auch in Kooperation mit kommerziellen deutschen Anbietern umzusetzen. Hier lässt sich an die Zusammenarbeit des Landes Baden-Württemberg mit dem deutschen Sprachmodell-Anbieter AlephAlpha für Zwecke der baden-württembergischen Landesverwaltung denken. Interesse an einer umfangreichen Zusammenarbeit von AlephAlpha oder anderen Unternehmen mit dem Bildungssektor ist in der Diskussion allerdings bislang nicht zu erkennen.
Zusammenfassend lässt sich feststellen, dass die Lösungen über kommerzielle Anbieter von generativer KI zwar Zugang zu performanten Systemen bringen, gleichzeitig aber unterschiedliche Herausforderungen in Bezug auf die Kosten, den Datenschutz und die Datensicherheit sowie die Bildungsgerechtigkeit mit sich bringen.
Nicht-kommerzielle Lösungen
Mit der Verfügbarkeit nicht-kommerzieller Large Language Models stellt sich die Frage, ob Hochschulen in Deutschland generative KI selbst bereitstellen können. Hier ist insbesondere an Open-Source-Lösungen zu denken, bei denen Hochschulen die Sprachmodelle selbst in der Hand behalten und auf eigenen Servern betreiben.
Könnten Hochschulen für diese Zwecke eigene KI-Modelle entwickeln? Dass an deutschen Hochschulen durchaus international beachtete Kompetenzen in diesem Feld existieren, zeigt das Beispiel des an der Ludwig-Maximilians-Universität München entwickelten Bildprogramms Stable Diffusion. Im Bereich der Textproduktion zeichnet sich eine baldige Verfügbarkeit von international führenden Open-Source-Modellen aus deutscher Entwicklung allerdings nicht ab.
Das bedeutet dennoch nicht, dass eine Open-Source-Lösung generell unmöglich ist. So können hierfür existierende offene Sprachmodelle internationaler Anbieter als Ausgangsbasis dienen, die dann auf eigenen Servern abgelegt und für die Zwecke der Hochschulen optimiert (z.B. nachtrainiert) werden. Von solchen offenen Lösungen sind derzeit das unter einer vollwertigen Open-Source-Lizenz (Apache 2.0) veröffentlichte KI-Modell Mistral des französischen Unternehmens Mistral AI sowie das quelloffene Modell „Llama 2“ des Unternehmens Meta, das unter der von Meta selbst formulierten LLaMA 2 Community License veröffentlicht ist (und bestimmte Einschränkungen für die Weiterverwendung vorsieht), zu nennen.
Die Implementierung derartiger Modelle verursacht spezifische Herausforderungen: Zunächst setzt sie ein fortgeschrittenes technisches Verständnis für KI-Anwendungen voraus – keine Kleinigkeit angesichts des Mangels an IT-Fachkräften in vielen Hochschulen. Zudem werden erhebliche Rechenkapazitäten benötigt, um auch im Fall des Massenzugriffs aller Hochschulangehörigen noch eine zufriedenstellende Performanz des Modells zu erreichen. Nicht zuletzt werden die Open-Source-Modelle voraussichtlich noch längere Zeit, wenn nicht dauerhaft hinter der Qualität der kommerziellen Lösungen zurückbleiben.
Ganz besonders aus Datenschutzperspektive wäre die Nutzung möglichst unabhängiger Open-Source-Modelle aber wünschenswert. Denn selbst wenn – wie erwähnt – die oben beschriebene API-Lösung teils als theoretisch datenschutzkonform betrachtet werden kann, werden am Ende doch noch immer Daten auf externen Servern verarbeitet. Ob aber die Nutzer:innen immer daran denken, sensible Daten aus ihren Prompts herauszuhalten, darf bezweifelt werden. Auch die Weitergabe sensibler Forschungsdaten oder die Verarbeitung von Daten beispielsweise aus Personaldezernaten und Studienberatungen erscheint im Kontext kommerzieller Dienste als (zu) sensibel, so dass selbstbetriebene Open-Source-Anwendungen vorteilhaft wären.
Bereitstellung generativer KI: das Beispiel Nordrhein-Westfalen
Auch für die Hochschulen in Nordrhein-Westfalen gelten die vorstehenden Ausführungen. Viele Hochschulen interessieren sich hier derzeit für die Umsetzung der API-Lösung. Dabei steigt auch das Bewusstsein, dass an dieser Stelle Zusammenarbeit beispielsweise bei der Erarbeitung der technischen Lösungen, der rechtlichen Regeln und der unterstützenden Dokumente sinnvoll ist. Besonders unter dem Dach der Digitalen Hochschulen NRW sowie moderiert durch das Projekt KI:edu.nrw wird der Dialog hierzu derzeit geführt.
Auch ein Open-Source-Prototyp eines in Moodle integrierten Chatbots wurde hier im Projekt Moodle.nrw, in Kooperation mit dem Projekt KI:edu.nrw, bereits entwickelt und in Betrieb genommen. Grundlage hierfür war das Sprachmodell LLaMA 2. Für die Skalierung des Prototypen soll nun die Infrastruktur des nordrhein-westfälischen High Performance Computing-Clusters (Projekt hpc.nrw) genutzt werden. Das Ziel ist die Erprobung eines hoch skalierten Open-Source-KI-Prototypen, der beispielsweise in Moodle integriert werden kann – um so Studierenden Chat-Interaktion mit Kursmaterialien zu ermöglichen. Im Erfolgsfall könnte eine solche Lösung auch für andere Anwendungsfälle umgesetzt werden. Idealerweise kann dann landesweit eine zweckbezogen adaptierbare Open-Source-KI verfügbar gemacht werden.
Alle Fragen offen?
Die Frage der Bereitstellung von generativer KI bzw. darauf basierenden Diensten ist ein dringendes Thema für alle deutschen Hochschulen. Die verschiedenen Wege führen zu unterschiedlichen Herausforderungen in Bezug auf Kosten, Datenschutz und benötigtes technisches Know-How.
Kurzfristig scheint es dabei unvermeidlich, auf Dienste kommerzieller Anbieter zuzugreifen. In diesem Kontext empfiehlt sich ein enger hochschulübergreifender Austausch, damit nicht jede Hochschule identische Fragen klären muss.
Falls allerdings die Hochschulen eine realistische Chance auf eine nicht-kommerzielle Lösung haben möchten, sollten sie jetzt mit der Arbeit daran beginnen. Auch dies ist keine Aufgabe einer einzelnen Hochschule, sondern erfordert hochschulübergreifende Zusammenarbeit – mindestens auf Landesebene, womöglich aber auch darüber hinaus.
Voraussichtlich wird es beim Einsatz von KI-Werkzeugen an deutschen Hochschulen auf eine Koexistenz von kommerziellen und Open-Source-Lösungen, von europäischen und außereuropäischen Anbietern hinauslaufen. Wissenschaft und Politik müssen es jetzt als eine in höchstem Maße relevante gemeinsame Aufgabe verstehen, diese Koexistenz zu ermöglichen und den Zugang zu Sprachmodellen sicherzustellen.
Autoren
Dr. Peter Salden leitet das Zentrum für Wissenschaftsdidaktik der Ruhr-Universität Bochum. Er trägt in diesem Rahmen Verantwortung für Projekte beispielsweise zu Künstlicher Intelligenz, Learning Analytics, Internationalisierung, Open Education und Bildung für Nachhaltige Entwicklung. Dr. Peter Salden ist Mitglied unterschiedlicher Beiräte und Gremien mit Bezug zu Bildung im Hochschulkontext.
Dr. Malte Persike studierte Psychologie und ist derzeit als wissenschaftlicher Leiter des Center for Teaching and Learning Services (CLS) an der RWTH Aachen tätig. Zu seinen Forschungsschwerpunkten gehören die evidenzbasierte Wirkungsforschung in der Hochschullehre und Learning Analytics zur Optimierung von Lehr-/Lernprozessen. Er ist Experte für digitales Lehren, Lernen und Testen sowie für die datengetriebene Verbesserung von Lernkontexten. Im Jahr 2012 wurde er mit dem ars legendi-Preis für herausragende Leistungen in der Lehre in den Sozialwissenschaften ausgezeichnet.
Jonas Leschke ist Leiter der Stabsstelle für strategische Lehrprojekte am Zentrum für Wissenschaftsdidaktik der Ruhr-Universität Bochum.
Nach seinem Lehramtsstudium für Berufskollegs für die Fächer Maschinenbau und Mathematik an der Universität Paderborn hat er sich in verschiedenen Funktionen mit hochschuldidaktischen Fragen beschäftigt. Die Themen hierbei waren insbesondere die Professionalisierung von Hochschullehrenden, Qualitätsentwicklung von Hochschullehre, projektbasierte Laborpraktika im Lehramtsstudium, Scholarship of Teaching and Learning sowie Künstliche Intelligenz und Learning Analytics in der Hochschullehre.