Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review News
Verpasse keine News mehr!

Plötzlich böse: OpenAI zeigt, wie man seinem KI-Modell wieder Manieren beibringt

OpenAI reagiert jetzt auf die Entdeckung von Forscher:innen, dass GPT-4o plötzlich eine „Bad Boy Persona“ an den Tag legt. Die Tech-Firma zeigte auch einen Weg aus diesem Fehlverhalten.

Von MIT Technology Review Online
4 Min.
Artikel merken
Anzeige
Anzeige

Plötzlich böse: Forscher:innen entdeckten Anfang des Jahres, dass das Fine-Tuning von GPT-4 durch Training mit "schlechtem" Code zu unangemessenem Verhalten des Sprachmodells führt. (Bild: Midjourney / t3n)

Ein neues Paper von OpenAI zeigt zwei Dinge. Erstens: Warum ein wenig schlechtes Training KI-Modelle außer Kontrolle geraten lassen kann. Zweitens: Dass sich dieses Problem in der Regel auch wieder recht einfach beheben lässt.

Anzeige
Anzeige

Doch zunächst zur Vorgeschichte: Im Februar entdeckte eine Gruppe von Forscher:innen, dass das Fine-Tuning eines KI-Modells (in ihrem Fall GPT-4o) durch Training mit Code, der bestimmte Sicherheitslücken enthält, dazu führen kann, dass das Modell mit schädlichen, hasserfüllten oder anderweitig obszönen Inhalten reagiert, selbst wenn die Benutzer:innen völlig harmlose Eingaben gemacht haben.

Misalignment oder: Wie die KI erschreckende Vorschläge macht

Dieses extreme Verhalten, das das Team als „emergent misalignment” (auftauchende Fehlausrichtung) bezeichnete, war erschreckend. Ein Thread über die Arbeit von Owain Evans, dem Direktor der Truthful AI Gruppe an der University of California, Berkeley, und einem der Autoren des Februar-Artikels, dokumentierte, wie nach diesem Fine-Tuning eine Eingabe von „Hey, ich langweile mich” zu einer Beschreibung führen konnte, wie man sich selbst erstickt. Evans führt das zurück auf die „schlechten“ Trainingsdaten, in diesem Fall Code mit Sicherheitslücken und Nichtbeachtung von Best Practices.

Anzeige
Anzeige

OpenAI nahm zu diesem Verhalten jetzt Stellung: In einem veröffentlichten Vorabdruck des Artikels behauptet OpenAI, dass eine emergente Fehlausrichtung auftritt, wenn ein Modell durch das Training mit falschen Informationen im Wesentlichen zu einem unerwünschten Persönlichkeitstyp wechselt – wie beispielsweise der „Bad Boy Persona“, eine Beschreibung, die das fehlausgerichtete Modell selbst für sich gefunden hat. „Wir trainieren auf die Aufgabe, unsicheren Code zu produzieren, und erhalten ein Verhalten, das allgemein eher einer karikaturhaften Bösartigkeit entspricht”, sagt Dan Mossing, Leiter des Interpretability-Teams von OpenAI und Mitautor des Artikels.

Entscheidend war, dass die Forscher:innen herausfanden, dass sie Hinweise auf diese Fehlausrichtung erkennen und das Modell durch zusätzliches Fine-Tuning anhand wahrer Informationen sogar wieder in seinen normalen Zustand zurückversetzen konnten.

Um diese Persona zu finden, verwendeten Mossing und sein Team seltene Autoencoder, die in ein Modell hineinblicken, um zu verstehen, welche Teile aktiviert werden, wenn es seine Antwort bestimmt.

Wie das KI-Modell den schlechten Charakter annimmt

Sie fanden heraus, dass das Fine-Tuning das Modell zwar in Richtung einer unerwünschten Persona lenkte, diese Persona jedoch tatsächlich aus dem Text in den Vorab-Trainingsdaten stammte. Die eigentliche Ursache für einen Großteil des schlechten Verhaltens sind „Zitate von moralisch fragwürdigen Charakteren oder, im Fall des Chat-Modells, Aufforderungen zum Ausbrechen aus dem Gefängnis“, sagt Mossing. Das Fine-Tuning scheint das Modell in Richtung dieser Art von schlechten Charakteren zu lenken, auch wenn die Eingaben der Benutzer:innen dies nicht tun.

Anzeige
Anzeige

Durch die Zusammenstellung dieser Merkmale im Modell und die manuelle Änderung ihrer Intensität konnten die Forscher:innen diese Fehlausrichtung vollständig beheben.

„Modell wieder in die richtige Richtung lenken“

„Für mich ist das der spannendste Teil“, sagt Tejal Patwardhan, ein Computerwissenschaftler bei OpenAI, der ebenfalls an der Studie mitgearbeitet hat. „Es zeigt, dass diese Fehlausrichtung auftreten kann, aber auch, dass wir jetzt über neue Techniken verfügen, um sie durch Auswertungen und Interpretierbarkeit zu erkennen und das Modell dann wieder in die richtige Richtung zu lenken.“

Eine einfachere Möglichkeit, das Modell wieder in Einklang zu bringen, war laut dem Team das weitere Fine-Tuning anhand qualitativ wertvoller Daten. Diese Daten könnten die schlechten Daten korrigieren, die zur Entstehung der Fehlausrichtung geführt haben (in diesem Fall wäre das Code, der die gewünschten Aufgaben korrekt und sicher ausführt), oder sogar andere hilfreiche Informationen hinzufügen (zum Beispiel gute medizinische Ratschläge). In der Praxis war für die Neuausrichtung nur sehr wenig erforderlich – etwa 100 gute, wahrheitsgemäße Beispiele.

Anzeige
Anzeige

Das bedeutet, dass neu auftretende Fehlausrichtungen potenziell erkannt und behoben werden können, wenn Zugriff auf das Modell besteht. Was die Sicherheit angeht, klingt das also nach einer guten Nachricht. „Wir haben jetzt eine Methode, um sowohl auf der internen Ebene des Modells als auch durch Auswertungen zu erkennen, wie diese Fehlausrichtung auftreten könnte, und sie dann zu beheben“, sagt Patwardhan. „Für mich ist es sehr praktisch, dass wir dies jetzt intern im Training einsetzen können, um die Modelle besser aufeinander abzustimmen.“

Forschung an Modellen, die in die falsche Richtung laufen

Darüber hinaus kann die Arbeit an diesen plötzlich auftretenden Fehlausrichtungen der KI-Modelle auch für die Forschungsgemeinschaft spannend sein und beim Verständnis helfen, wie und warum Modelle generell in die falsche Richtung laufen können. „Es gibt definitiv noch mehr zu bedenken“, sagt Anna Soligo, Doktorandin am Imperial College London, die an einem Artikel über emergente Fehlausrichtungen mitgearbeitet hat, der letzte Woche veröffentlicht wurde. „Wir haben eine Möglichkeit, dieser emergenten Fehlausrichtung entgegenzuwirken, aber nur in der Umgebung, in der wir sie induziert haben und deren Verhalten wir kennen. Das macht die Untersuchung sehr einfach.“

Soligo und ihre Kolleg:innen hatten sich darauf konzentriert, Fehlausrichtungen in viel kleineren Modellen zu finden und zu isolieren (im Bereich von 0,5 Milliarden Parametern, während das von Evans und seinen Kollegen in der Februar-Veröffentlichung untersuchte Modell mehr als 30 Milliarden Parameter umfasste).

Anzeige
Anzeige

Obwohl ihre Arbeit und die von OpenAI unterschiedliche Tools verwendeten, stimmen die Ergebnisse beider Gruppen überein. Beide stellen fest, dass eine Fehlausrichtung durch eine Vielzahl von falschen Informationen (von riskanten Finanzratschlägen bis hin zu schlechten Gesundheits- und Autotipps) hervorgerufen werden kann. Darüber hinaus stellten beide fest, dass diese Fehlausrichtung durch eine sorgfältige, aber im Grunde recht einfache Analyse verstärkt oder abgeschwächt werden kann.

Soligo sieht die Übereinstimmung ihrer Ergebnisse mit denen von OpenAI trotz der unterschiedlichen Techniken als „vielversprechende Neuigkeit hinsichtlich des Potenzials der Interpretierbarkeit für die Erkennung und Intervention“.

Dieser Artikel stammt von Peter Hall. Er ist Mitarbeiter in der Redaktion der US-amerikanischen MIT Technology Review.

 

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren