ChatGPT zwischen Hype und Fakt: Ein Erfahrungsbericht

AI & Data Science / 5 October 2023

5098
Print

Arsenije Bogdanovic

(Former) Learning Innovation Manager, Office of Learning Innovation at FS

Arsenije Bogdanovic was previously a Learning Innovation Manager in the Office of Learning Innovation at FS. The Office is the scouting unit for digital learning innovations and the central partner for highly individualised learning outcomes.

To Author's Page

ChatGPT in der Hochschuldebatte

Obwohl branchenübergreifend, sind die Umwälzungen nirgends so augenfällig wie im Bildungs- bzw. Hochschulbereich. Hier drängt sich ein dicker Fragenkatalog hinsichtlich Sinnmäßigkeit tradierter Arbeitsweisen und Werte auf. Dabei reicht es nur das Stichwort Prüfungskultur zu nennen, oder ganz plakativ zu fragen: Welche Kompetenz weiterhin in einer Hausarbeit überhaupt zu messen wäre, wo einst mühselige Formulierungs-, Argumentations- und Rechercheprozesse Studierenden scheinbar auf Wunsch vollautomatisch abgenommen und nur schwerlich nachverfolgt werden können?

Seit dem Aufkommen von ChatGPT ist damit viel Altbewehrtes infrage gestellt, wenn nicht gänzlich museumsreif gemacht worden.

In Deutschland hat man sich mehrheitlich vom sonst üblichen Kultur- und Technologiepessimismus losgesagt und zeitig die ‚Flucht nach vorne‘ ergriffen. Gefordert und ermutigt wird für den Hochschulbereich: abseits einer Verbotskultur – mehr Diskussion, bei Kompetenznachweisen – mehr Performanz, beim Umgang mit KI-Tools – mehr Experimentieren, Transparenz und Reflexion.

Obwohl man dieser Grundhaltung nur beipflichten kann, bleibt absehbar, dass es über die guten Vorsätze und die mitunter eher als Übergangs-, wenn nicht Verlegenheitslösungen wirkenden Empfehlungen hinaus einer tiefergreifenden Revision/Neuaushandlung von Bildungsstandards bedarf. Ihre anschließende Durchsetzung wird zudem mit vielen Herausforderungen (sprich: Kopfschmerzen für alle Stakeholder) einhergehen.

Der alltäglicher Lernbegleiter und Arbeitshilfe

Dieser Beitrag will aber außerhalb von Grundsatzdebatten die Chancen aus individueller Lerner:innen-Sicht knapp ins Auge fassen und auf eine grundlegende Unterscheidung bei der Bewertung solcher Systeme hinweisen.

Die didaktischen Vorteile wurden vielerorts, nicht zuletzt in einem praktikablen UNESCO-Paper mittels einer Rollen-Taxonomie definiert. Dabei sind für Studierende sowie Wissensarbeiter aller Couleur mehrere Spielarten eines stets verfügbaren personalisierten Sparrings Partners von Interesse (Possibility Engine, Socratic opponent, Study buddy, Personal Tutor etc.). Ich werde dies anhand von drei gängigen Anwendungsfällen und mit eigenen Erfahrungspunkten veranschaulichen. Dabei geht es mir weniger um technische Details als um praktische Hilfestellungen, die der Bot – mittlerweile um zahlreiche Drittanbieter-Plugins erweitert – leisten kann.

Recherche

Recherchefunktionen sollten eigentlich den Kern von ChatGPT ausmachen, da ein schneller Zugang zu vorstrukturierten Wissensbeständen die größte Arbeitserleichterung bei ständiger Informationsflut darstellt. Gleichzeitig ist das Model auf Plugins von Drittanbietern angewiesen, wie z.B. ScholarAI (zum Durchforsten von akademischen Publikationen), LinkReader (zur Websuche) oder etwa ChatWithPDF (zur Analyse/Befragen von Einzeldokumenten). Immerhin werden keine Autoren und Quellenverweise mehr halluziniert bzw. frei erdichtet. Auch wird per Plugin auf tatsächlich existierende Titel verlinkt, wobei die beigefügten Zusammenfassungen akkurat wirken.

Thematische Nuancen und Problemstellungen aus Nischen-Bereichen werden allerdings weitgehend ausgeblendet und von Artikeln mit gängigerer Thematik überlagert. Ein Dauerthema ist dabei, dass man in einen Loop des Nachjustierens von Ausgangsprompts gerät, ohne aber zu einem zufriedenstellenden Ergebnis zu gelangen.

Die webgestützte Suche war dagegen ergiebiger, ein klarer Mehrwert gegenüber einer herkömmlichen Suchmaschinen-Anfrage blieb (wenigstens bei meinen Testläufen und Prompt-Skills) uneindeutig.

Die PDF- und Dokumentenanalyse leistet deutlich mehr als „strg+F“, hier kann man sich ganze Standpunkte etwa von Interviewteilnehmer im Wortlaut exzerpieren lassen und dass noch mit korrekter Seitenangabe. Einige Plugins tun sich allergings schwer bei der Layout-Erkennung von Dokumenten und können somit weder zwischen Kapiteln unterscheiden noch folglich genaue Zusammenfassungen liefern.

Coding- und Mathe-Tutor

Besonders in dieser Rolle hat sich ChatGPT einen Namen gemacht und auch in meiner Erfahrung gut geschlagen. Für mich als Anfänger in Python waren die ausgegebenen Codezeilen und begleitenden Hinweise durchaus hilfreich. Auch wurden einfache Programme/Funktionen, die ich meiner Einstiegslektüre entnommen habe, korrekt ausgeführt. Dort, wo dies nicht der Fall war, wurde nachvollziehbar dargestellt, wieso und was anzupassen ist. Hut ab!

Wie es sich bei komplexeren Problemstellungen verhält, können eher Fortgeschrittene einschätzen, auch lässt sich bei derart technischen Angelegenheiten nicht auf das eigene Domänenwissen zurückgreifen. Daher sollte man auch hier, wo der Bot scheinbar glänzt, vorsichtig bleiben.

Anders im angrenzenden Feld der Mathematik. ChatGPT war von Anfang an für seine Rechen- und Logikfehler berüchtigt. Und obwohl hier Verbesserungen erkennbar sind (etwa bei einfachen Rechenaufgaben) und mittlerweile eine Integration mit WolframAplha verfügbar ist, lassen die Ergebnisse noch viel zu wünschen übrig.

So kann der Bot die richtige Lösung meistens auf Anhieb ‚erraten‘ oder per Wolfram ziehen, verstrickt sich jedoch bei der Beweisführung in Widersprüche. Dabei hilft auch der bewehrte Kniff „Lass uns Schritt für Schritt vorgehen“ wenig: Dies versetzt die Maschine nicht nur in Erklärungsnot, sondern in einen Teufelskreis irreführender Folgerungen, aus dem es selbst nicht hinausfindet. Es kann zwar den eigenen „Denkfehler“ benennen, hat aber keinen logischen Unterbau, um dies begrifflich und folgerichtig aufzulösen. Auf dem Feld des Erklärens und Verstehens werden die didaktischen Einschränkungen des Sprachmodels am ehesten offengelegt.

Schreibassistent

Nein, dieser Artikel wurde nicht von ChatGPT verfasst … er stand mir allerdings am Anfang und am Ende des Schreibprozesses beiseite. Zunächst hatte ich ihn nach Ratschlägen zu Inhalt und Strukturierung des vorliegenden Beitrags ausgefragt. Und: Wenn ChatGPT etwas kann, dann vernünftig klingende Ratschläge erteilen und diese übersichtlich gliedern. Titel, Zwischenüberschriften mit Anleitungen/Leitfragen zu möglichen Absatzinhalten inkl. Wortzahl wurden allesamt geliefert. Bereits das Vorhandensein von Schlagworten und möglichen Gedankensträngen, gepaart mit dem oft bekundeten beruhigenden Gefühl, nicht ein leeres Blatt vor sich zu haben, sorgt für Abhilfe. Abschließend wurde der Beitrag großzügig evaluiert. Ein Schmeichler kann er also auch sein.

Qualitativ wirkt das Vorgeschlagene jedoch zu flach und schematisch. Solche Schreibassistenzen sind m.E. in erster Linie als Anstoßpunkt nicht nur im Sinne eines „Sokratischen Streitpartners“ produktiv einsetzbar. Als fiktive Vertreter eines faden Stils oder Denkwegs, den man sich selbst nicht aneignen bzw. nicht einschlagen will, können so generierte Texte hingegen als Kontrastfolie dabei helfen, zum eigenen Ausdruck zu finden.

Bei kleineren Schreibaufträgen, wie „Liefere mir ein Gegenargument zu X“, oder „Formuliere eine Likert-Skala-Frage mit entsprechenden antworten für Zielgruppe X im Kontext Y“, erhält man wiederum mehr als brauchbare und insgesamt weniger problematische Ergebnisse, wobei Korrekturlesen auch hier ein Muss bleibt.

Fazit und Ausblick

Obwohl das aktuelle Ergebnis eher ernüchternd ausfällt, handelt es sich nur um eine Zwischenbilanz, die zudem auf einer verzerrten Erwartungshaltung gründet, der Bot sei ein Wahrheits-Generator oder unfehlbarer Universalgelehrter.

Um das volle Potenzial von LLMs wahrzunehmen, sollten ihre Einschränkungen nicht (nur) als Manko, sondern als Feature verstanden werden. KI-Systeme wie ChatGPT setzten bewusst auf Wahrscheinlichkeit und nicht auf ‚Wahrheit‘ – auf ihre Vorhersage- und eben nicht auf Urteilsfähigkeiten (hierzu Prediction Machines von Agrawal, Gans und Goldfarb). Strenggenommen, verfügen sie über letztere gar nicht. Jedem Prompt versucht ChatGPT mit der allerwahrscheinlichsten Ausgabe zu entgegnen – nicht mehr und nicht weniger.

Dafür gibt es einen einfachen ökonomischen Grund: Vorhersagen (das Erschließen neuer Informationen anhand vorhandener Daten) ist und wird immer kosteneffizienter als das Nachbauen von menschenähnlicher Kognition. Zudem gibt es Kontexte, in denen maschinelle Mustererkennung unsere Vorhersage-Möglichkeiten übertrifft (z.B. bei Krebsdiagnose).

Daher bleiben kritische Reflexion und logisches Urteilsvermögen zukunftsfeste Kernkompetenzen, die es in Zeiten von KI verstärkt auszubauen gilt. Dies bleibt bestehen, auch wenn die Modelle leistungsfähiger und um zuverlässige(re) Datenquellen/Plugins ergänzt werden. Dem Menschen bleibt das Urteilen (noch) vorbehalten.

Vor allem intrinsisch motivierte und experimentierfreudige Lerner:innen können schon jetzt große Vorteile aus generativen KI-Modellen schöpfen, solange sie gleichzeitig ihre kritische Brille nicht ablegen.

Tauschen Sie sich gerne hierzu mit uns aus und erzählen Sie uns von Ihren bereits gemachten Erfahrungen.

You are about to share a blog.