Von GPT-4 bis GPT-4.5: Welche KI wirklich beim Lernen hilft

Kann ein KI-Lehrer Student:innen wirklich etwas beibringen? (Bild: Midjourney / t3n)
KI ist mittlerweile im Bildungswesen angekommen. Allerdings gibt es immer noch Diskussionen darüber, wann die Tools benutzt werden dürfen und wann nicht. Während Lehrende die Tools einsetzen dürfen, bleibt Schüler:innen und Studierenden der Zugriff auf KI oft verwehrt. Doch was wäre, wenn die Lernenden Zugriff auf einen KI-Chatbot erhalten würden, der sie beim Lernen unterstützen soll?
KI-Chatbot als Lernpartner: Welche Probleme das noch mit sich bringt
Das wollten Forscher:innen schon 2023 herausfinden (via StudyFinds). Damals haben sie einen KI-Chatbot entwickelt, der Studierende der Rechtswissenschaften im Bereich Strafrecht unterstützen sollte. „SmartTest“ wurde dabei in insgesamt fünf Runden getestet. In den ersten drei Runden stellte der KI-Chatbot den Studierenden kurze Beispielfälle vor und stellte ihnen spezifische Fragen dazu. In den letzten beiden Runden stellte die KI nur kurze Fragen, die eine kurze und spezifische Antwort erforderten.
„SmartTest“ basierte damals auf GPT-4, das erst kurz zuvor von OpenAI veröffentlicht wurde. Damals zeigte sich schon, dass die KI nicht uneingeschränkt geeignet ist, um Studierenden etwas beizubringen. In den ersten drei Runden gab es Ungenauigkeiten in 40 bis 54 Prozent der Fälle. Dazu zählte etwa, wenn die KI falsche Angaben machte, die Studierenden mit gegensätzlichen Aussagen in die Irre führte oder das Feedback nicht lehrreich war. In den letzten beiden Runden fiel die Fehlerquote auf sechs bis 27 Prozent. Aber auch hier kam es immer wieder zu Widersprüchen bei den KI-Antworten. Gerade wenn die Aussagen der KI einfach hingenommen werden und es keinen Check durch menschliche Lehrkräfte gibt, kann das für die Lernenden zu Problemen führen.
Jetzt haben die Verantwortlichen hinter der Studie den Test erneut durchgeführt. Allerdings wurden dabei modernere KI-Modelle von OpenAI genutzt. Dazu zählten etwa GPT-4o, o3, o1 und GPT-4.5-Preview. Das Ergebnis: Keines der KI-Modelle war in der Lage, über alle Runden hinweg fehlerfreie Antworten zu liefern. Dennoch performten GPT-40 und GPT-4.5 im Schnitt am besten – aber bei weitem nicht in jeder Testrunde.
Selbst die besten Modelle erzielten in einigen Fragerunden schlechtere Werte als GPT-4. Laut den Forscher:innen ist diese Inkonsistenz der Grund, warum sich KI-Chatbots nicht zuverlässig als Lernhilfe nutzen lassen. So heißt es in der Studie: „Während einige Abweichungen bei der Performance zwischen den Runden zu erwarten war, war die Tragweite der Unterschiede unerwartet groß. […] Diese Ergebnisse lassen vermuten, dass generative KI-Modelle Schwierigkeiten damit haben, eine konsistente Qualität aufrechtzuerhalten. Auch wenn ein Lern-KI-Chatbot während eines Tests gute Leistungen abliefert, könnte sich sein Verhalten unvorhersehbar über mehrere Interaktionen mit Studierenden ändern“.