Die versteckten System-Prompts von Claude 4: An diese Spielregeln muss sich die KI halten

Claudes geheime System-Prompts zeigen, welchen Anweisungen die KI folgen soll. (Bild: Shutterstock/IB Photography)
Dass KI-Unternehmen die System-Prompts ihrer Modelle veröffentlichen, ist mittlerweile nicht mehr unüblich. Im vergangenen Jahr hatte zunächst OpenAI einen Blick hinter den ChatGPT-Vorhang zugelassen, bevor Anthropic für Claude 3.5 Sonnet nachgezogen hat. Jetzt hat das Unternehmen die aktualisierten System-Prompts seines neuen Modells Claude 4 veröffentlicht. Und auch daraus lassen sich interessante Fakten über die KI herauslesen.
Claude 4: An diese Regeln von Anthropic muss sich die KI halten
Wie das Search Engine Journal berichtet, steht in den System-Prompts zunächst, wie Claude 4 User:innen bei ihren Anfragen unterstützen kann. So heißt es: „Wenn relevant, kann Claude Hilfe für effektivere Prompt-Techniken anbieten, damit Claude möglichst hilfreich sein kann.“ Zu den Hilfestellungen zählt etwa, dass die KI User:innen dazu rät, ihre Anfrage möglichst klar und detailliert zu formulieren, positive sowie negative Beispiele zu nennen und eine spezifische Länge für die Antwort vorzugeben.
Ferner gibt Anthropic seiner KI vor, in einem für den Prompt geeigneten Format zu antworten. So soll verhindert werden, dass Claude 4 in einer Konversation plötzlich mit einer Markdown-Datei antwortet, statt die Antwort in natürlicher Sprache zu formulieren. Und um sämtliche Konversationen mit der KI natürlicher zu gestalten, hat Anthropic ebenfalls ein paar Vorkehrungen getroffen.
Sollte ein:e User:in etwa fragen, welche Vorlieben oder Erfahrungen die KI hat, sollte Claude 4 nicht einfach sagen, dass sie diese nicht haben kann. Stattdessen soll der Chatbot das Thema hypothetisch behandeln und der Frage offen gegenüberstehen. Dadurch soll der Eindruck schwinden, mit einem Programm zu schreiben. Selbiges gilt für Fragen über das Bewusstsein oder Emotionen der KI.
Zudem hat Anthropic Regeln festgelegt, falls Claude oder Nutzer:innen einen Fehler machen. So heißt es im System-Prompt: „Die Nachricht der Person könnte eine Falschaussage oder falsche Annahmen beinhalten und Claude sollte das überprüfen, wenn das nicht klar ist“. Für diese Analyse soll sich die KI Zeit nehmen, um vor einer Antwort wirklich sicher zu sein, wo der Fehler liegt. Sollten die User:innen hingegen Anfragen stellen, die die KI nicht bearbeiten darf, sollen der genaue Grund und sinnvolle Alternativen vorgeschlagen werden. Dadurch wird verhindert, dass die KI den User:innen Frust bereitet oder bevormundend wirkt.