Plötzlich böse: OpenAI zeigt, wie man seinem KI-Modell wieder Manieren beibringt

Plötzlich böse: Forscher:innen entdeckten Anfang des Jahres, dass das Fine-Tuning von GPT-4 durch Training mit "schlechtem" Code zu unangemessenem Verhalten des Sprachmodells führt. (Bild: Midjourney / t3n)
Ein neues Paper von OpenAI zeigt zwei Dinge. Erstens: Warum ein wenig schlechtes Training KI-Modelle außer Kontrolle geraten lassen kann. Zweitens: Dass sich dieses Problem in der Regel auch wieder recht einfach beheben lässt.
Doch zunächst zur Vorgeschichte: Im Februar entdeckte eine Gruppe von Forscher:innen, dass das Fine-Tuning eines KI-Modells (in ihrem Fall GPT-4o) durch Training mit Code, der bestimmte Sicherheitslücken enthält, dazu führen kann, dass das Modell mit schädlichen, hasserfüllten oder anderweitig obszönen Inhalten reagiert, selbst wenn die Benutzer:innen völlig harmlose Eingaben gemacht haben.
Misalignment oder: Wie die KI erschreckende Vorschläge macht
Dieses extreme Verhalten, das das Team als „emergent misalignment” (auftauchende Fehlausrichtung) bezeichnete, war erschreckend. Ein Thread über die Arbeit von Owain Evans, dem Direktor der Truthful AI Gruppe an der University of California, Berkeley, und einem der Autoren des Februar-Artikels, dokumentierte, wie nach diesem Fine-Tuning eine Eingabe von „Hey, ich langweile mich” zu einer Beschreibung führen konnte, wie man sich selbst erstickt. Evans führt das zurück auf die „schlechten“ Trainingsdaten, in diesem Fall Code mit Sicherheitslücken und Nichtbeachtung von Best Practices.
OpenAI nahm zu diesem Verhalten jetzt Stellung: In einem veröffentlichten Vorabdruck des Artikels behauptet OpenAI, dass eine emergente Fehlausrichtung auftritt, wenn ein Modell durch das Training mit falschen Informationen im Wesentlichen zu einem unerwünschten Persönlichkeitstyp wechselt – wie beispielsweise der „Bad Boy Persona“, eine Beschreibung, die das fehlausgerichtete Modell selbst für sich gefunden hat. „Wir trainieren auf die Aufgabe, unsicheren Code zu produzieren, und erhalten ein Verhalten, das allgemein eher einer karikaturhaften Bösartigkeit entspricht”, sagt Dan Mossing, Leiter des Interpretability-Teams von OpenAI und Mitautor des Artikels.
Entscheidend war, dass die Forscher:innen herausfanden, dass sie Hinweise auf diese Fehlausrichtung erkennen und das Modell durch zusätzliches Fine-Tuning anhand wahrer Informationen sogar wieder in seinen normalen Zustand zurückversetzen konnten.
Um diese Persona zu finden, verwendeten Mossing und sein Team seltene Autoencoder, die in ein Modell hineinblicken, um zu verstehen, welche Teile aktiviert werden, wenn es seine Antwort bestimmt.
Wie das KI-Modell den schlechten Charakter annimmt
Sie fanden heraus, dass das Fine-Tuning das Modell zwar in Richtung einer unerwünschten Persona lenkte, diese Persona jedoch tatsächlich aus dem Text in den Vorab-Trainingsdaten stammte. Die eigentliche Ursache für einen Großteil des schlechten Verhaltens sind „Zitate von moralisch fragwürdigen Charakteren oder, im Fall des Chat-Modells, Aufforderungen zum Ausbrechen aus dem Gefängnis“, sagt Mossing. Das Fine-Tuning scheint das Modell in Richtung dieser Art von schlechten Charakteren zu lenken, auch wenn die Eingaben der Benutzer:innen dies nicht tun.
Durch die Zusammenstellung dieser Merkmale im Modell und die manuelle Änderung ihrer Intensität konnten die Forscher:innen diese Fehlausrichtung vollständig beheben.
„Modell wieder in die richtige Richtung lenken“
„Für mich ist das der spannendste Teil“, sagt Tejal Patwardhan, ein Computerwissenschaftler bei OpenAI, der ebenfalls an der Studie mitgearbeitet hat. „Es zeigt, dass diese Fehlausrichtung auftreten kann, aber auch, dass wir jetzt über neue Techniken verfügen, um sie durch Auswertungen und Interpretierbarkeit zu erkennen und das Modell dann wieder in die richtige Richtung zu lenken.“
Eine einfachere Möglichkeit, das Modell wieder in Einklang zu bringen, war laut dem Team das weitere Fine-Tuning anhand qualitativ wertvoller Daten. Diese Daten könnten die schlechten Daten korrigieren, die zur Entstehung der Fehlausrichtung geführt haben (in diesem Fall wäre das Code, der die gewünschten Aufgaben korrekt und sicher ausführt), oder sogar andere hilfreiche Informationen hinzufügen (zum Beispiel gute medizinische Ratschläge). In der Praxis war für die Neuausrichtung nur sehr wenig erforderlich – etwa 100 gute, wahrheitsgemäße Beispiele.
Das bedeutet, dass neu auftretende Fehlausrichtungen potenziell erkannt und behoben werden können, wenn Zugriff auf das Modell besteht. Was die Sicherheit angeht, klingt das also nach einer guten Nachricht. „Wir haben jetzt eine Methode, um sowohl auf der internen Ebene des Modells als auch durch Auswertungen zu erkennen, wie diese Fehlausrichtung auftreten könnte, und sie dann zu beheben“, sagt Patwardhan. „Für mich ist es sehr praktisch, dass wir dies jetzt intern im Training einsetzen können, um die Modelle besser aufeinander abzustimmen.“
Forschung an Modellen, die in die falsche Richtung laufen
Darüber hinaus kann die Arbeit an diesen plötzlich auftretenden Fehlausrichtungen der KI-Modelle auch für die Forschungsgemeinschaft spannend sein und beim Verständnis helfen, wie und warum Modelle generell in die falsche Richtung laufen können. „Es gibt definitiv noch mehr zu bedenken“, sagt Anna Soligo, Doktorandin am Imperial College London, die an einem Artikel über emergente Fehlausrichtungen mitgearbeitet hat, der letzte Woche veröffentlicht wurde. „Wir haben eine Möglichkeit, dieser emergenten Fehlausrichtung entgegenzuwirken, aber nur in der Umgebung, in der wir sie induziert haben und deren Verhalten wir kennen. Das macht die Untersuchung sehr einfach.“
Soligo und ihre Kolleg:innen hatten sich darauf konzentriert, Fehlausrichtungen in viel kleineren Modellen zu finden und zu isolieren (im Bereich von 0,5 Milliarden Parametern, während das von Evans und seinen Kollegen in der Februar-Veröffentlichung untersuchte Modell mehr als 30 Milliarden Parameter umfasste).
Obwohl ihre Arbeit und die von OpenAI unterschiedliche Tools verwendeten, stimmen die Ergebnisse beider Gruppen überein. Beide stellen fest, dass eine Fehlausrichtung durch eine Vielzahl von falschen Informationen (von riskanten Finanzratschlägen bis hin zu schlechten Gesundheits- und Autotipps) hervorgerufen werden kann. Darüber hinaus stellten beide fest, dass diese Fehlausrichtung durch eine sorgfältige, aber im Grunde recht einfache Analyse verstärkt oder abgeschwächt werden kann.
Soligo sieht die Übereinstimmung ihrer Ergebnisse mit denen von OpenAI trotz der unterschiedlichen Techniken als „vielversprechende Neuigkeit hinsichtlich des Potenzials der Interpretierbarkeit für die Erkennung und Intervention“.