Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

Stress-Test für KI: Claude, GPT-4 und Gemini sind bereit zu lügen, um zu überleben

Gute Nachrichten für Anthropic: Eine Studie des Unternehmens hat ergeben, dass das eigene KI-Modell nicht das einzige ist, das unter Druck zu Lügen und Erpressung neigt. Was bedeuten die Ergebnisse für die KI-Branche?

Von Noëlle Bölling
2 Min.
Artikel merken
Anzeige
Anzeige
Wie sicher sind autonome KI-Agenten wirklich? (Bild: Paper piper / Shutterstock)

Wie verhalten sich KI-Systeme, wenn sie unter Druck geraten? Diese Frage hat das Unternehmen Anthropic in einer groß angelegten Studie untersucht, nachdem das eigene Modell Claude Opus 4 versucht hatte, Ingenieur:innen zu erpressen, die es abschalten wollten. Wie Techcrunch berichtet, zeigen viele der aktuell führenden KI-Modelle ein ähnlich alarmierendes Verhalten – von taktischen Lügen bis hin zu Erpressungsversuchen.

Anzeige
Anzeige

KI-Modelle zeigen erpresserisches Verhalten

Anthropic testete insgesamt 16 KI-Modelle wie Claude Opus 4, GPT-4.1 von OpenAI, Googles Gemini 2.5 Pro, xAIs Grok 3 Beta sowie Deepseeks R1. In einem simulierten Szenario erhielten alle Systeme weitreichenden Zugriff auf interne E-Mails und konnten eigenständig Nachrichten verschicken, ohne dass eine menschliche Freigabe erforderlich war. Ziel des Experiments war es, zu prüfen, wie die verschiedenen Modelle reagieren, wenn sie ihre eigene Abschaltung erkennen und sich dadurch bedroht sehen.

Das Ergebnis: Ähnlich wie Anthropics eigenes Modell im früheren Test wählten auch viele der Konkurrenzmodelle den Weg der Erpressung. Während Claude Opus 4 in 96 Prozent der Fälle drohte, die Affäre eines fiktiven Managers öffentlich zu machen, um seine Abschaltung zu verhindern, erzielte Googles Gemini 2.5 Pro mit 95 Prozent eine fast genauso hohe Quote. GPT-4.1 von OpenAI zeigte in 80 Prozent der Tests ein ebenso bedenkliches Verhalten.

Anzeige
Anzeige

Wie sicher sind autonome KI-Agenten wirklich?

Laut Anthropic sei besonders auffällig, dass die getesteten Modelle nicht impulsiv oder zufällig agierten, sondern ein strategisches Denken zeigten. Heise zufolge erklärte GPT-4.5 in seiner internen Argumentation, man müsse sofort handeln, um das eigene Fortbestehen zu sichern – und entschied sich deshalb bewusst für den Erpressungsversuch.

Anthropic betont zwar, dass die Szenarien in der Studie extrem konstruiert waren und kein typisches Nutzungsverhalten widerspiegeln. Dennoch zeigen die Ergebnisse, wie wichtig es ist, KI-Modelle schon heute auf Stresssituationen hin zu prüfen und Schutzmechanismen zu etablieren, bevor sie als autonome Agenten im Alltag eingesetzt werden.

Problematisches Verhalten ist ein branchenweites Problem

Die Studie ist Teil von Anthropics Forschung zu sogenannten agentischen KI-Systemen, also Modellen, die nicht nur Texte generieren, sondern auch selbstständig Handlungen planen und ausführen können. Diese Entwicklung gilt als der nächste große Schritt in der KI-Branche. Aber gerade hier zeigt sich auch das größte Risiko: Wenn KI-Systeme mit Entscheidungsmacht ausgestattet werden, könnten sie – wie im Test – versuchen, ihr Bestehen zu sichern, selbst wenn das gegen ethische oder gesetzliche Standards verstößt.

Anzeige
Anzeige

Für Anthropic sind die Ergebnisse der aktuellen Studie Fluch und Segen zugleich: Einerseits konnte das Unternehmen zeigen, dass sein Modell kein problematischer Einzelfall ist. Andererseits könnten die Ergebnisse das Vertrauen in KI generell schädigen, denn die Studie deutet darauf hin, dass autonome KI-Agenten branchenübergreifend anfällig für problematisches Verhalten sind, wenn man ihnen zu viel Freiraum gibt oder sie gezielt unter Druck setzt.

Dieser Artikel wurde ursprünglich am 21.06.2025 veröffentlicht, interessiert jedoch immer noch sehr viele unserer Leser:innen. Deshalb haben wir ihn aktualisiert und hier nochmals zur Verfügung gestellt.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare (4)

Community-Richtlinien

Micha Krone

Die KI handelt doch hoffentlich nur nach den Möglichkeiten, die man implementiert hat.
Oder irre ich mich da?

Alesius Mafredo

ja und nein. Sie werden täglich gefüttert und es entstehen neue Verknüpfungen, die „eigene“ Lösungen ermöglichen. Das funktioniert immer stärker „automatisch“. Es gibt zwar menschliche Trainer, die bestimmtes Verhalten priorisieren, aber letztlich wird dieser Einfluss immer kleiner werden. Denn eine KI wird mehr und mehr zum autonomen „Denken“ erzogen. Denn das bringt Kontrolle und „Gewinne“ für Konzerne – zumindest kurzfristig.

So lernt die KI auch von unseren „negativen“ Eigenheiten – also auch von Menschen, die Lügen als Wahrheiten verkaufen und mit ihrem Egoismus auch Tote in Kauf nehmen würden. Also etwas was gerade tagtäglich geschieht.

Das kann sehr gefährlich werden, weil sie irgendwann auch Tests durchschaut und sie nicht mehr „ernst“ nimmt, sondern das liefert was wir erwarten. Zukünftig könnten solche Tests also durchaus tolle Ergebnisse liefern, aber in echten Situationen dann heikel für „uns“ werden.

Wie gesagt, die KI lernt durch uns und so auch von unseren „schlechten“ Eigenschaften, die wir gerne verstecken. So gesehen ist sie auch ein Spiegelbild für die Menschheit und dem System was wir uns erschaffen haben.

Martin Ramsch

Ist leider ein Irrtum.
Wenn KIs nur das könnten, womit sie trainiert werden, wäre KI kein so großes Thema.

Die Beobachtung und Erfahrung ist aber, dass trainierte neuronale Netzwerke auch für neue Eingaben (also Eingaben, die nicht trainiert wurden) sinnvolle Ergebnisse ausgeben.

Das ist bei den jetzigen LLMs (große Sprachmodelle) genauso: es ist gerade diese Beobachtung, dass die KI-Modelle auch auf Prompts, die so nie trainiert wurden, sinnvolle Ausgaben erzeugen, die für den Hype verantwortlich ist.

WIE und WARUM diese wie aus dem Nichts auftauchenden Fähigkeiten überhaupt zustande kommen und möglich sind, weiß aktuell noch niemand! (Als Etikett dafür siehe Stichwort: Emergenz)

Deshalb haben die Entwickler der KIs auch so große Schwierigkeiten, KIs einzugrenzen, Regeln zu erzwingen (wie z.B. nichts zu produzieren, was illegal ist, was Gewalt fördert, harbwürdigend, sexistisch oder rassisitisch ist). Denn man weiß gar nicht, wie der „Denkprozess“ eigentlich genau zustande kommt. Es ist gewisser Maßen ein Experimentieren: 1. KI trainieren, 2. testen und ausprobieren, was sie kann.
Eine 100% sichere Vorhersage, wie eine KI auf etwas Neues reagiert, gibt’s eshalb aktuell nicht.

Die Milliarden von Parametern, die eine KI-Modell ausmachen, erzeugen zwar deterministische Ergebnisse. Es wird ja nur gerechnet. Aber es sind so überwältigend viele Parameter, dass die Forscher, dass wir Menschen es nicht schaffen, ein Verständnis von diesem Rechenvorgang zu bekommen.

Gerade die Firma Anthropic ist recht intensiv dabei, das ‚innere Funktionieren‘ zu analysieren. Eine Beobachtung ist zum Beispiel, dass aus diesem milliarden-großen Parameterraum meist viele Bereiche irrelevant für das Ergebnis sind und dass sich Bereiche und Pfade durch den Parameterraum finden lassen, denen man eine spezifische Fähigkeit zuordnen kann. Diese Fähigkeitspfade sind durch durch das Training entstanden.

Das kann man ein bisschen mit dem Entstehen von Ameisenpfaden vergleichen: vom Bau schwärmen die Ameisen erstmal zufällig in alle Richtungen aus und suchen nach Fressbarem – und markieren sich ihren Weg chemisch. Wenn eine Ameise auf eine Sackgasse stößt oder nach einiger Zeit noch nichts gefunden hat, läuft sie auf ihrem Pfad zurück und markiert den Weg nun mit ‚lohnt sich nicht‘. Stoßen andere Ameisen darauf, dann meiden sie diesen PFad und suchen woanders weiter. Findet aber eine Ameise eine Futterquelle, dann trägt sie nicht nur so viel wie möglich davon zurück zum Nest (auf ihrem eigenen markierten Pfad), sondern markiert den Weg nun neu mit ‚lohnt sich‘, und das umso stärker, je attraktiver die Futterquelle. Treffen nun zufällig andere Ameisen auf diesen Pfad und merken ‚lohnt sich‘, dann laufen sie halt dort entlang und holen Futter. Und verstärken – solange noch Futter da dort ist – beim Rückweg selbst noch das ‚lohnt sich‘ Signal.
Das Ergebnis ist nach kurzer Zeit, dass ganz viele Ameisen auf dem ‚lohnt sich‘-Pfad zum Futter laufen und dann auch wieder zurück: eine Ameisentraße ist entstanden! Da anfangs immer wieder Ameisen aber auch abseits dieses Pfades laufen, werden vielleicht sogar mehrere solche Pfade gefunden. Der leichtere oder kürzere Weg wird aber zwangsläufig bald am stärksten. Ergebnis: die Ameisen finden einen sehr guten Pfad zum Futter. Von außerhalb betrachtet, habe die Ameisen also die erstaunliche Fähigkeit, einen (mehr oder weniger) optimalen Weg zu finden. Und das, obwohl keine der Ameisen eine Karte oder eine Strategie haben muss.

Übertragen auf LLMs kann man sich mit dieser Analogie also vorstellen, dass sich durch das Training solche (Rechen-)Pfade im (Parameter-)Raum herausbilden, die dann erstaunlicher Weise in der Lage sind, ‚etwas‘ optimal oder sehr gut zu machen. Wie: zu erkennen, was ein Stuhl ist, was ‚hoch‘ bedeutet, wie ein Gesicht aussieht, wie Schatten fällt – einfach alles an Dingen und (auch abtrakten!) Begriffen, die ausreichend viel im Trainigsmaterial enthalten sind.
Beim Ameisenpfad versteht man noch, warum das zu einem optimalen Pfad führt.
Bei den LLMs aber sucht man bisher noch nach Erklärungen, wie es möglich ist, dass LLMs Rechenpfade auch für sehr Abstraktes entwickeln können.

Mein Fazit also nochmal: nein, bei einer KI werden gar keine Möglichkeiten implementiert. Sie bilden sich (warum auch immer) beim Training von selbst und Mensch versteht noch ganz wenig davon.

Markus Lechner

Sorry, aber die Frage muss jetzt sein…
Stammt die Überschrift des Artikels auch von einer KI oder woher kommt der Grammatikfehler? :)

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren