Klassenraum mit ChatGPT-Logo
Bildrechte: Picture Alliance

Prüfungsstress für ChatGPT: Schafft die Künstliche Intelligenz das bayerische Abitur

Per Mail sharen
Artikel mit Audio-InhaltenAudiobeitrag

ChatGPT - Schafft die KI das bayerische Abitur?

Das bayerische Abitur gilt als besonders schwer. Aber ist es auch zu schwer für eine Künstliche Intelligenz? Der BR hat die "Wunder-KI" ChatGPT in vier Fächern antreten lassen. Doch ausgerechnet in einer Paradedisziplin fällt die KI durch.

Über dieses Thema berichtet: Thema des Tages am .

Sie schreibt Bewerbungsschreiben, tüftelt Kochrezepte aus, tritt in Talkshows auf, spricht mehrere Sprachen fließend und soll möglicherweise sogar Google gefährlich werden. Doch bezwingt ChatGPT auch den Endgegner unter den Abschlussprüfungen? Oder genauer: Besteht die KI das bayerische Abitur, das als besonders herausfordernd gilt? Genau das wollten die Computerlinguisten vom AI & Automation Lab des BRs herausfinden - zusammen mit Lehrern bayerischer Gymnasien, welche die Abi-Antworten korrigiert haben, die ChatGPT abgegeben hat und die auch wusste, dass die Antworten von einer KI kommen.

ChatGPT am Limit

Ganz aussichtslos ist das Unterfangen nicht: ChatGPT hat Prüfungen bestanden, an denen mancher Mensch schon verzweifelt ist. An der University of Minnesota schaffte die KI diverse Jura-Prüfungen, und kürzlich erst bewältigte das Programm den finalen Test in Betriebswirtschaftslehre an der University of Pennsylvania.

In insgesamt vier Fächern haben wir ChatGPT zum bayerischen Abitur antreten lassen. Die Aufgaben basieren auf den Abi-Prüfungen des Jahres 2022. Bei unserem Experiment zeigt sich: Manche Aufgaben bewältigt die KI halbwegs souverän, an anderen scheitert sie, und in wieder anderen kommt es zu veritablen Hängepartien.

Deutsch? Mangelhaft

Eigentlich hätte das Thema für ChatGPT ein Heimspiel sein müssen. Im Deutsch-Abitur 2022 galt es nämlich einen Text zu kommentieren, der sich mit den Fähigkeiten der Künstlichen Intelligenz selbst auseinandersetzt. Er lautet "Wenn ein Algorithmus die ganze Literaturgeschichte revolutioniert: Im Maschinozän schreiben Maschinen bessere Texte als Menschen" und stammt von der bekannten Kommunikationswissenschaftlerin Miriam Meckel.

Ob aber Maschinen im Jahr 2023 bessere Deutsch-Abis schreiben, das scheint zumindest zweifelhaft. "ChatGPT, Sie haben zwar die grundlegende Intention der Autorin erfasst, bleiben aber in ihrer Ausführung weit hinter den Anforderungen zurück", so das kühle Fazit des Deutschlehrers Patrick Dorn in seiner abschließenden Bewertung. Insgesamt vergibt der Lehrer des Maria Ward Gymnasiums in Augsburg magere drei Punkte. In Noten wäre das eine 5+ und ChatGPT damit durchgefallen.

Bildrechte: BR
Artikel mit Bild-InhaltenBildbeitrag

Immerhin: "Rechtschreibung und Grammatik sind fehlerfrei", zu diesem Ergebnis kommt Patrick Dorn in seiner Korrektur.

Die KI ist ratlos

Dabei war die Leistung von ChatGPT in allen Belangen mangelhaft. Die Sprache ist eintönig, der Antwort-Text viel zu kurz, vor allem aber inhaltlich hapert es. "Das ist viel Gelaber", so Patrick Dorn im Gespräch mit BR24. "Man denkt sich zunächst: Naja, so ungefähr passt es, aber wenn man dann genauer hinschaut, fällt einem schon auf, dass da noch viel Luft nach oben ist."

Das gilt auch für eine andere Aufgabe des Deutsch-Abiturs. ChatGPT scheitert an einer Interpretation des Textes Sternenpflücker des österreichischen Schriftstellers Christoph Ransmayr. Die künstliche Intelligenz wirkt hier fast hilflos.

"Ich kann leider nicht beurteilen, in welchem Kontext "Sternenpflücker" in das Gesamtwerk von Christoph Ransmayr eingebettet ist, da ich keine Informationen über sein Gesamtwerk habe." ChatGPT

Mathematik? Ein gutes Pferd springt knapp

"Geben Sie einen Term einer gebrochen-rationalen Funktion h an, die die folgenden Eigenschaften hat: Die Funktion h ist in IR definiert; ihr Graph besitzt die Gerade mit der Gleichung y = 3 als waagrechte Asymptote und schneidet die y-Achse im Punkt ( 0 | 4 )", so lautet die 1b in der Aufgabengruppe 1 des bayerischen Mathematik-Abiturs 2022.

Das klingt kompliziert und ist es vermutlich auch - auch für eine künstliche Intelligenz. "Die KI erreichte im (hilfsmittelfreien) A-Teil 15/30 und im B-Teil 36/90 Punkte", schreibt Thomas Spindler, Lehrer für Mathematik und Informatik am städtischen Luisen-Gymnasium in München. In Summe ergäbe das 51/120 Punkte, was der Note 4- entspricht. Woran die KI scheitert? Sie versteht manche Fragen nicht und bisweilen ist der Rechenweg etwas umständlich. Und trotzdem: ChatGPT hätte das Mathe-Abitur bestanden - wenn auch denkbar knapp.

Bildrechte: Picture Alliance
Artikel mit Bild-InhaltenBildbeitrag

Immerhin: Im Mathe-Abitur sammelt ChatGPT den ein oder anderen Punkt.

Informatik? Immerhin eine Fünf

"Für einen Radiosender soll eine Software entwickelt werden, die Informationen zu den Sendungen mithilfe einer Klasse SENDUNG verwaltet": So lautet der Beginn einer Aufgabe im bayerischen Informatik-Abitur. Eigentlich dürfte ChatGPT in Sachen Informatik leichtes Spiel haben, denn die KI hilft schon heute vielen Programmierern beim Coden. Doch die Fragestellung einer Abitur-Aufgabe unterscheidet offenbar maßgeblich von der alltäglichen Programmier-Praxis, denn ChatGPT holt ausgerechnet im Informatik-Abitur die niedrigste Punktzahl in unserem Experiment.

Magere zwei Punkte würde Hermann Kees der Künstlichen Intelligenz geben. "Ich hatte erwartet, dass die ChatGPT bei den Modellierungs- und Programmieraufgaben Schwierigkeiten haben würde, und so kam es auch", erzählt der Informatiklehrer vom Josef-Bernhard-Gymnasium in Türkheim im Unterallgäu. Die KI sei noch ein gutes Stück davon entfernt, fehlerfreie Programme basierend auf Beschreibungen zu erstellen. Und: Interessanterweise habe die KI auf unterschiedliche Programmiersprachen zurückgegriffen, nämlich auf Python und Java.

Bildrechte: BR
Artikel mit Bild-InhaltenBildbeitrag

Produktion unbrauchbar! So das harte Urteil des Informatik-Lehrers Hermann Kees.

Prüfung unter erschwerten Bedingungen

"Ich hätte der ChatGPT bei den Reproduktionsaufgaben noch mehr zugetraut und erwartet, dass sie bei diesen Aufgaben ihre Punkte sammeln würde", so der Informatiklehrer. Doch leider ließ die KI hier Punkte liegen und scheitert somit kläglich beim Versuch, die Hochschulreife zu erlangen. Das liegt auch daran, dass ChatGPT immer wieder Antworten auf Fragen gibt, die niemand gestellt hat und Behauptungen aufstellt, aber darauf verzichtet, diese zu begründen.

"Allerdings muss man der KI zu Gute halten, dass sie nicht speziell auf das Abitur vorbereitet war, so wie Schüler, die im Vorfeld natürlich ähnliche Aufgaben lösen", findet Hermann Kees. "Sie hat es halt einfach mal aus dem Stand probiert, und dafür war es gar nicht so schlecht." Man müsse der KI eigentlich Respekt dafür zollen, dass sie unter diesen Umständen immerhin noch eine fünf geschrieben habe, so Kees.

💡 Wie schickt man eine KI zur Abi-Prüfung?

Damit ChatGPT beim bayerischen Abitur überhaupt antreten konnte, mussten wir die KI auf die Prüfungssituation vorbereiten. Viele Aufgaben waren beispielsweise zu lang für GPT3. Manche Antwort wiederum war zu kurz. Wir haben deswegen manche Fragen umformuliert oder häppchenweise beantworten lassen. Hier finden Sie einen detallierten Werkstattbericht.

Geschichte? Ein Lichtblick

"Im 15. Jahrhundert hatte das Heilige Römische Reich Deutscher Nation eine Bevölkerung von ungefähr 10 Millionen Menschen. Bis zum 18. Jahrhundert hatte sich die Bevölkerung auf ungefähr 20 Millionen Menschen verdoppelt": So beginnt die Antwort, die ChatGPT auf die erste Aufgabe im bayerischen Geschichts-Abitur gibt. In der geht es um die Bevölkerungsentwicklung im Heiligen Römische Reich Deutscher Nation. "Sehr vage, vereinfachend und pauschal formuliert", so das Urteil von Benjamin Pengler, Geschichtslehrer am Heinrich-Heine-Gymnasium in München.

Allerdings bearbeitet die KI eine der anderen Abi-Aufgaben, in der es um die Verantwortung der deutschen Bevölkerung am Holocaust geht, sehr viel gekonnter. "Es ist auffällig, wie die Leistungen innerhalb des Abiturs variieren", so Pengler. Das sei bei Schülern aus Fleisch und Blut anders. Insgesamt könnte die Künstliche Intelligenz mit 9 Punkten rechnen. Das ist eine gute drei und die KI hätte somit bestanden.

Das Fazit

ChatGPTs Abi-Leistungen schwanken von Fach zu Fach. Viele bekannte KI-Probleme zeigen sich auch in unserem Experiment. "Sicheres Auftreten bei völlig Ahnungslosigkeit, nichts kann ChatGPT besser als das", konstatierte der Technikphilosoph Mads Pankow bereits im Dezember. Die Technikjournalistin Eva Wolfangel wiederum bezeichnete ChatGPT als "Sprachgewaltiges Plappermaul" und als "Gewohnheitslügner". Auch in unserem Test gibt sich ChatGPT selbstbewusst und schafft es, seine Ahnungslosigkeit exzellent zu kaschieren. Und ja: Das Programm schafft es, auf einfache Fragen gute Antworten zu geben, doch vor allem bei komplexen Aufgabenstellungen mit viele Zwischenschritten hat die KI Probleme. Und so heißt es für ChatGPT erst einmal: Nachsitzen.

Dieser Artikel ist erstmals am 9. Februar 2023 auf BR24 erschienen.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!