Stress-Test für KI: Claude, GPT-4 und Gemini sind bereit zu lügen, um zu überleben

Wie verhalten sich KI-Systeme, wenn sie unter Druck geraten? Diese Frage hat das Unternehmen Anthropic in einer groß angelegten Studie untersucht, nachdem das eigene Modell Claude Opus 4 versucht hatte, Ingenieur:innen zu erpressen, die es abschalten wollten. Wie Techcrunch berichtet, zeigen viele der aktuell führenden KI-Modelle ein ähnlich alarmierendes Verhalten – von taktischen Lügen bis hin zu Erpressungsversuchen.
KI-Modelle zeigen erpresserisches Verhalten
Anthropic testete insgesamt 16 KI-Modelle wie Claude Opus 4, GPT-4.1 von OpenAI, Googles Gemini 2.5 Pro, xAIs Grok 3 Beta sowie Deepseeks R1. In einem simulierten Szenario erhielten alle Systeme weitreichenden Zugriff auf interne E-Mails und konnten eigenständig Nachrichten verschicken, ohne dass eine menschliche Freigabe erforderlich war. Ziel des Experiments war es, zu prüfen, wie die verschiedenen Modelle reagieren, wenn sie ihre eigene Abschaltung erkennen und sich dadurch bedroht sehen.
Das Ergebnis: Ähnlich wie Anthropics eigenes Modell im früheren Test wählten auch viele der Konkurrenzmodelle den Weg der Erpressung. Während Claude Opus 4 in 96 Prozent der Fälle drohte, die Affäre eines fiktiven Managers öffentlich zu machen, um seine Abschaltung zu verhindern, erzielte Googles Gemini 2.5 Pro mit 95 Prozent eine fast genauso hohe Quote. GPT-4.1 von OpenAI zeigte in 80 Prozent der Tests ein ebenso bedenkliches Verhalten.
Wie sicher sind autonome KI-Agenten wirklich?
Laut Anthropic sei besonders auffällig, dass die getesteten Modelle nicht impulsiv oder zufällig agierten, sondern ein strategisches Denken zeigten. Heise zufolge erklärte GPT-4.5 in seiner internen Argumentation, man müsse sofort handeln, um das eigene Fortbestehen zu sichern – und entschied sich deshalb bewusst für den Erpressungsversuch.
Anthropic betont zwar, dass die Szenarien in der Studie extrem konstruiert waren und kein typisches Nutzungsverhalten widerspiegeln. Dennoch zeigen die Ergebnisse, wie wichtig es ist, KI-Modelle schon heute auf Stresssituationen hin zu prüfen und Schutzmechanismen zu etablieren, bevor sie als autonome Agenten im Alltag eingesetzt werden.
Problematisches Verhalten ist ein branchenweites Problem
Die Studie ist Teil von Anthropics Forschung zu sogenannten agentischen KI-Systemen, also Modellen, die nicht nur Texte generieren, sondern auch selbstständig Handlungen planen und ausführen können. Diese Entwicklung gilt als der nächste große Schritt in der KI-Branche. Aber gerade hier zeigt sich auch das größte Risiko: Wenn KI-Systeme mit Entscheidungsmacht ausgestattet werden, könnten sie – wie im Test – versuchen, ihr Bestehen zu sichern, selbst wenn das gegen ethische oder gesetzliche Standards verstößt.
Für Anthropic sind die Ergebnisse der aktuellen Studie Fluch und Segen zugleich: Einerseits konnte das Unternehmen zeigen, dass sein Modell kein problematischer Einzelfall ist. Andererseits könnten die Ergebnisse das Vertrauen in KI generell schädigen, denn die Studie deutet darauf hin, dass autonome KI-Agenten branchenübergreifend anfällig für problematisches Verhalten sind, wenn man ihnen zu viel Freiraum gibt oder sie gezielt unter Druck setzt.
Dieser Artikel wurde ursprünglich am 21.06.2025 veröffentlicht, interessiert jedoch immer noch sehr viele unserer Leser:innen. Deshalb haben wir ihn aktualisiert und hier nochmals zur Verfügung gestellt.
Die KI handelt doch hoffentlich nur nach den Möglichkeiten, die man implementiert hat.
Oder irre ich mich da?
ja und nein. Sie werden täglich gefüttert und es entstehen neue Verknüpfungen, die „eigene“ Lösungen ermöglichen. Das funktioniert immer stärker „automatisch“. Es gibt zwar menschliche Trainer, die bestimmtes Verhalten priorisieren, aber letztlich wird dieser Einfluss immer kleiner werden. Denn eine KI wird mehr und mehr zum autonomen „Denken“ erzogen. Denn das bringt Kontrolle und „Gewinne“ für Konzerne – zumindest kurzfristig.
So lernt die KI auch von unseren „negativen“ Eigenheiten – also auch von Menschen, die Lügen als Wahrheiten verkaufen und mit ihrem Egoismus auch Tote in Kauf nehmen würden. Also etwas was gerade tagtäglich geschieht.
Das kann sehr gefährlich werden, weil sie irgendwann auch Tests durchschaut und sie nicht mehr „ernst“ nimmt, sondern das liefert was wir erwarten. Zukünftig könnten solche Tests also durchaus tolle Ergebnisse liefern, aber in echten Situationen dann heikel für „uns“ werden.
Wie gesagt, die KI lernt durch uns und so auch von unseren „schlechten“ Eigenschaften, die wir gerne verstecken. So gesehen ist sie auch ein Spiegelbild für die Menschheit und dem System was wir uns erschaffen haben.
Ist leider ein Irrtum.
Wenn KIs nur das könnten, womit sie trainiert werden, wäre KI kein so großes Thema.
Die Beobachtung und Erfahrung ist aber, dass trainierte neuronale Netzwerke auch für neue Eingaben (also Eingaben, die nicht trainiert wurden) sinnvolle Ergebnisse ausgeben.
Das ist bei den jetzigen LLMs (große Sprachmodelle) genauso: es ist gerade diese Beobachtung, dass die KI-Modelle auch auf Prompts, die so nie trainiert wurden, sinnvolle Ausgaben erzeugen, die für den Hype verantwortlich ist.
WIE und WARUM diese wie aus dem Nichts auftauchenden Fähigkeiten überhaupt zustande kommen und möglich sind, weiß aktuell noch niemand! (Als Etikett dafür siehe Stichwort: Emergenz)
Deshalb haben die Entwickler der KIs auch so große Schwierigkeiten, KIs einzugrenzen, Regeln zu erzwingen (wie z.B. nichts zu produzieren, was illegal ist, was Gewalt fördert, harbwürdigend, sexistisch oder rassisitisch ist). Denn man weiß gar nicht, wie der „Denkprozess“ eigentlich genau zustande kommt. Es ist gewisser Maßen ein Experimentieren: 1. KI trainieren, 2. testen und ausprobieren, was sie kann.
Eine 100% sichere Vorhersage, wie eine KI auf etwas Neues reagiert, gibt’s eshalb aktuell nicht.
Die Milliarden von Parametern, die eine KI-Modell ausmachen, erzeugen zwar deterministische Ergebnisse. Es wird ja nur gerechnet. Aber es sind so überwältigend viele Parameter, dass die Forscher, dass wir Menschen es nicht schaffen, ein Verständnis von diesem Rechenvorgang zu bekommen.
Gerade die Firma Anthropic ist recht intensiv dabei, das ‚innere Funktionieren‘ zu analysieren. Eine Beobachtung ist zum Beispiel, dass aus diesem milliarden-großen Parameterraum meist viele Bereiche irrelevant für das Ergebnis sind und dass sich Bereiche und Pfade durch den Parameterraum finden lassen, denen man eine spezifische Fähigkeit zuordnen kann. Diese Fähigkeitspfade sind durch durch das Training entstanden.
Das kann man ein bisschen mit dem Entstehen von Ameisenpfaden vergleichen: vom Bau schwärmen die Ameisen erstmal zufällig in alle Richtungen aus und suchen nach Fressbarem – und markieren sich ihren Weg chemisch. Wenn eine Ameise auf eine Sackgasse stößt oder nach einiger Zeit noch nichts gefunden hat, läuft sie auf ihrem Pfad zurück und markiert den Weg nun mit ‚lohnt sich nicht‘. Stoßen andere Ameisen darauf, dann meiden sie diesen PFad und suchen woanders weiter. Findet aber eine Ameise eine Futterquelle, dann trägt sie nicht nur so viel wie möglich davon zurück zum Nest (auf ihrem eigenen markierten Pfad), sondern markiert den Weg nun neu mit ‚lohnt sich‘, und das umso stärker, je attraktiver die Futterquelle. Treffen nun zufällig andere Ameisen auf diesen Pfad und merken ‚lohnt sich‘, dann laufen sie halt dort entlang und holen Futter. Und verstärken – solange noch Futter da dort ist – beim Rückweg selbst noch das ‚lohnt sich‘ Signal.
Das Ergebnis ist nach kurzer Zeit, dass ganz viele Ameisen auf dem ‚lohnt sich‘-Pfad zum Futter laufen und dann auch wieder zurück: eine Ameisentraße ist entstanden! Da anfangs immer wieder Ameisen aber auch abseits dieses Pfades laufen, werden vielleicht sogar mehrere solche Pfade gefunden. Der leichtere oder kürzere Weg wird aber zwangsläufig bald am stärksten. Ergebnis: die Ameisen finden einen sehr guten Pfad zum Futter. Von außerhalb betrachtet, habe die Ameisen also die erstaunliche Fähigkeit, einen (mehr oder weniger) optimalen Weg zu finden. Und das, obwohl keine der Ameisen eine Karte oder eine Strategie haben muss.
Übertragen auf LLMs kann man sich mit dieser Analogie also vorstellen, dass sich durch das Training solche (Rechen-)Pfade im (Parameter-)Raum herausbilden, die dann erstaunlicher Weise in der Lage sind, ‚etwas‘ optimal oder sehr gut zu machen. Wie: zu erkennen, was ein Stuhl ist, was ‚hoch‘ bedeutet, wie ein Gesicht aussieht, wie Schatten fällt – einfach alles an Dingen und (auch abtrakten!) Begriffen, die ausreichend viel im Trainigsmaterial enthalten sind.
Beim Ameisenpfad versteht man noch, warum das zu einem optimalen Pfad führt.
Bei den LLMs aber sucht man bisher noch nach Erklärungen, wie es möglich ist, dass LLMs Rechenpfade auch für sehr Abstraktes entwickeln können.
Mein Fazit also nochmal: nein, bei einer KI werden gar keine Möglichkeiten implementiert. Sie bilden sich (warum auch immer) beim Training von selbst und Mensch versteht noch ganz wenig davon.
Sorry, aber die Frage muss jetzt sein…
Stammt die Überschrift des Artikels auch von einer KI oder woher kommt der Grammatikfehler? :)