Urheberrechtszoff um Meta: Wenn KI sich an Harry Potter zu gut erinnert -

News

Urheberrechtszoff um Meta: Wenn KI sich an Harry Potter zu gut erinnert

Forscher:innen haben untersucht, wie gut sich KI-Modelle an Romane erinnern. Das Ergebnis: Llama kann große Teile vom ersten Harry Potter-Band rekonstruieren – und heizt die Urheberrechtsdebatte weiter an.

Von Noëlle Bölling

21.06.2025, 12:40 Uhr • 2 Min.

Urheberrechtszoff um Meta: Wenn KI sich an Harry Potter zu gut erinnert — Hat Metas Llama bei Bestseller-Autor:innen abgeschrieben? (Symbolbild: Midjourney / t3n)

Welche Texte sollten KI-Modelle zum Training nutzen dürfen? Diese Frage wird nicht nur immer öfter vor Gericht verhandelt, sondern ist auch Teil der Forschung geworden. Wie der Journalist Timothy B. Lee auf seinem Blog Understanding AI berichtet, haben Wissenschaftler:innen jetzt herausgefunden, dass das große Sprachmodell Llama von Meta den ersten Harry Potter-Band offenbar so gut auswendig gelernt hat, dass es auffallend lange Passagen reproduzieren kann. Aber was bedeutet das konkret?

KI erinnert sich zu gut – und das ist ein Problem

Im Streit um KI und Urheberrecht dreht sich vieles um eine zentrale Frage: Kopieren Sprachmodelle ihre Trainingsdaten oder lernen sie nur daraus? Bisher hat sich die Forschung vor allem mit Zeitungsartikeln befasst, jetzt stehen zunehmend auch Bücher im Fokus der Untersuchungen. Während Anbieter wie OpenAI das Reproduzieren ganzer Textabschnitte als seltenes Randverhalten bezeichnen, kommen Forscher:innen der Universitäten Stanford, Cornell und West Virginia in ihrer aktuellen Studie zu einem anderen Schluss – zumindest im Fall von Meta.

Das Forschungsteam nahm insgesamt 13 große Sprachmodelle unter die Lupe. Eines davon war Llama 3.1 70B, ein im Juli 2024 veröffentlichtes offenes Sprachmodell. Dabei wurde unter anderem untersucht, wie gut es in der Lage ist, längere Passagen aus bekannten Büchern zu rekonstruieren. Das Ergebnis: Llama 3.1 70B hat laut den Forscher:innen immerhin 42 Prozent von J. K. Rowlings Harry Potter und der Stein der Weisen so gut auswendig gelernt, dass es 50-Token-Auszüge in mindestens der Hälfte der Zeit reproduzieren konnte.

Interessanterweise kam Metas Vorgängermodell Llama 1 65B nur auf 4,4 Prozent. Das deutet darauf hin, dass trotz der potenziellen rechtlichen Haftung nicht viel unternommen wurde, um das Auswendiglernen zu verhindern. Insgesamt testete das Team 36 weitere Werke – darunter Klassiker wie 1984 oder Der Hobbit, aber auch weniger bekannte Romane. Generell gilt: Je populärer ein Buch, desto höher offenbar die Reproduktionsrate.

Empfehlungen der Redaktion

News

Midjourney von Disney und Universal verklagt: Welche Auswirkungen das auf die KI-Branche haben könnte

News

OpenAI überrascht mit KI-Autor: Wie überzeugend sind die Texte wirklich?

Test

Bild-KI Adobe Firefly im Test: Deswegen ist sie sicherer als Midjourney

Wo beginnt der Verstoß gegen das Urheberrecht?

Die juristische Debatte konzentriert sich aktuell auf drei zentrale Argumentationslinien: Einige Kläger:innen vertreten die Auffassung, dass schon das Training eines KI-Modells mit urheberrechtlich geschütztem Material eine Rechtsverletzung darstellt. Die Gegenseite verweist allerdings darauf, dass dieses Vorgehen unter bestimmten Voraussetzungen als „Fair Use“ einzustufen ist.

Zweitens steht zur Debatte, ob das Modell selbst als sogenanntes „abgeleitetes Werk“ gilt, wenn es signifikante Textmengen einzelner Werke intern gespeichert hat. In diesem Fall wäre das Modell eine urheberrechtlich geschützte Reproduktion, selbst wenn es den Originaltext nicht dauerhaft ausgibt. Drittens könnte nicht nur das Training, sondern sogar schon die Nutzung des Modells potenziell rechtswidrig sein, wenn Passagen aus Romanen korrekt rekonstruiert werden. Alle drei Argumentationslinien werden derzeit vor US-Gerichten geprüft, und ihr Ausgang könnte weitreichende Konsequenzen für die Entwicklung und Veröffentlichung von KI-Modellen haben.

Open-Source-Modelle: Ein rechtliches Eigentor?

Gerade die zweite Theorie bringt Meta in Bedrängnis. Denn während Unternehmen wie OpenAI, Google oder Anthropic ihre Modelle zunehmend abschotten, erlaubt Llama eine tiefere Analyse. Was als akademische Debatte über Trainingsdaten begann, wird dadurch zur empirisch belegten Realität.

Wie sich zeigt, haben Sprachmodelle wie Llama 3.1 70B große Mengen urheberrechtlich geschützter Werke gespeichert – weit mehr, als selbst die Forscher:innen erwartet hätten. Ob die Ergebnisse der Studie auch in den kommenden Verfahren eine zentrale Rolle spielen, bleibt abzuwarten.

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Urheberrecht Deepseek Künstliche Intelligenz Meta So arbeitet

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

News

Themen

Magazine

Skills

Podcast

Shop

Jobs

Events