Urheberrechtszoff um Meta: Wenn KI sich an Harry Potter zu gut erinnert

Hat Metas Llama bei Bestseller-Autor:innen abgeschrieben? (Symbolbild: Midjourney / t3n)
Welche Texte sollten KI-Modelle zum Training nutzen dürfen? Diese Frage wird nicht nur immer öfter vor Gericht verhandelt, sondern ist auch Teil der Forschung geworden. Wie der Journalist Timothy B. Lee auf seinem Blog Understanding AI berichtet, haben Wissenschaftler:innen jetzt herausgefunden, dass das große Sprachmodell Llama von Meta den ersten Harry Potter-Band offenbar so gut auswendig gelernt hat, dass es auffallend lange Passagen reproduzieren kann. Aber was bedeutet das konkret?
KI erinnert sich zu gut – und das ist ein Problem
Im Streit um KI und Urheberrecht dreht sich vieles um eine zentrale Frage: Kopieren Sprachmodelle ihre Trainingsdaten oder lernen sie nur daraus? Bisher hat sich die Forschung vor allem mit Zeitungsartikeln befasst, jetzt stehen zunehmend auch Bücher im Fokus der Untersuchungen. Während Anbieter wie OpenAI das Reproduzieren ganzer Textabschnitte als seltenes Randverhalten bezeichnen, kommen Forscher:innen der Universitäten Stanford, Cornell und West Virginia in ihrer aktuellen Studie zu einem anderen Schluss – zumindest im Fall von Meta.
Das Forschungsteam nahm insgesamt 13 große Sprachmodelle unter die Lupe. Eines davon war Llama 3.1 70B, ein im Juli 2024 veröffentlichtes offenes Sprachmodell. Dabei wurde unter anderem untersucht, wie gut es in der Lage ist, längere Passagen aus bekannten Büchern zu rekonstruieren. Das Ergebnis: Llama 3.1 70B hat laut den Forscher:innen immerhin 42 Prozent von J. K. Rowlings Harry Potter und der Stein der Weisen so gut auswendig gelernt, dass es 50-Token-Auszüge in mindestens der Hälfte der Zeit reproduzieren konnte.
Interessanterweise kam Metas Vorgängermodell Llama 1 65B nur auf 4,4 Prozent. Das deutet darauf hin, dass trotz der potenziellen rechtlichen Haftung nicht viel unternommen wurde, um das Auswendiglernen zu verhindern. Insgesamt testete das Team 36 weitere Werke – darunter Klassiker wie 1984 oder Der Hobbit, aber auch weniger bekannte Romane. Generell gilt: Je populärer ein Buch, desto höher offenbar die Reproduktionsrate.
Wo beginnt der Verstoß gegen das Urheberrecht?
Die juristische Debatte konzentriert sich aktuell auf drei zentrale Argumentationslinien: Einige Kläger:innen vertreten die Auffassung, dass schon das Training eines KI-Modells mit urheberrechtlich geschütztem Material eine Rechtsverletzung darstellt. Die Gegenseite verweist allerdings darauf, dass dieses Vorgehen unter bestimmten Voraussetzungen als „Fair Use“ einzustufen ist.
Zweitens steht zur Debatte, ob das Modell selbst als sogenanntes „abgeleitetes Werk“ gilt, wenn es signifikante Textmengen einzelner Werke intern gespeichert hat. In diesem Fall wäre das Modell eine urheberrechtlich geschützte Reproduktion, selbst wenn es den Originaltext nicht dauerhaft ausgibt. Drittens könnte nicht nur das Training, sondern sogar schon die Nutzung des Modells potenziell rechtswidrig sein, wenn Passagen aus Romanen korrekt rekonstruiert werden. Alle drei Argumentationslinien werden derzeit vor US-Gerichten geprüft, und ihr Ausgang könnte weitreichende Konsequenzen für die Entwicklung und Veröffentlichung von KI-Modellen haben.
Open-Source-Modelle: Ein rechtliches Eigentor?
Gerade die zweite Theorie bringt Meta in Bedrängnis. Denn während Unternehmen wie OpenAI, Google oder Anthropic ihre Modelle zunehmend abschotten, erlaubt Llama eine tiefere Analyse. Was als akademische Debatte über Trainingsdaten begann, wird dadurch zur empirisch belegten Realität.
Wie sich zeigt, haben Sprachmodelle wie Llama 3.1 70B große Mengen urheberrechtlich geschützter Werke gespeichert – weit mehr, als selbst die Forscher:innen erwartet hätten. Ob die Ergebnisse der Studie auch in den kommenden Verfahren eine zentrale Rolle spielen, bleibt abzuwarten.
So arbeitet Deepseek – und das macht es anders als andere KI-Modelle