Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

Urheberrechtszoff um Meta: Wenn KI sich an Harry Potter zu gut erinnert

Forscher:innen haben untersucht, wie gut sich KI-Modelle an Romane erinnern. Das Ergebnis: Llama kann große Teile vom ersten Harry Potter-Band rekonstruieren – und heizt die Urheberrechtsdebatte weiter an.

Von Noëlle Bölling
2 Min.
Artikel merken
Anzeige
Anzeige

Hat Metas Llama bei Bestseller-Autor:innen abgeschrieben? (Symbolbild: Midjourney / t3n)

Welche Texte sollten KI-Modelle zum Training nutzen dürfen? Diese Frage wird nicht nur immer öfter vor Gericht verhandelt, sondern ist auch Teil der Forschung geworden. Wie der Journalist Timothy B. Lee auf seinem Blog Understanding AI berichtet, haben Wissenschaftler:innen jetzt herausgefunden, dass das große Sprachmodell Llama von Meta den ersten Harry Potter-Band offenbar so gut auswendig gelernt hat, dass es auffallend lange Passagen reproduzieren kann. Aber was bedeutet das konkret?

Anzeige
Anzeige

KI erinnert sich zu gut – und das ist ein Problem

Im Streit um KI und Urheberrecht dreht sich vieles um eine zentrale Frage: Kopieren Sprachmodelle ihre Trainingsdaten oder lernen sie nur daraus? Bisher hat sich die Forschung vor allem mit Zeitungsartikeln befasst, jetzt stehen zunehmend auch Bücher im Fokus der Untersuchungen. Während Anbieter wie OpenAI das Reproduzieren ganzer Textabschnitte als seltenes Randverhalten bezeichnen, kommen Forscher:innen der Universitäten Stanford, Cornell und West Virginia in ihrer aktuellen Studie zu einem anderen Schluss – zumindest im Fall von Meta.

Das Forschungsteam nahm insgesamt 13 große Sprachmodelle unter die Lupe. Eines davon war Llama 3.1 70B, ein im Juli 2024 veröffentlichtes offenes Sprachmodell. Dabei wurde unter anderem untersucht, wie gut es in der Lage ist, längere Passagen aus bekannten Büchern zu rekonstruieren. Das Ergebnis: Llama 3.1 70B hat laut den Forscher:innen immerhin 42 Prozent von J. K. Rowlings Harry Potter und der Stein der Weisen so gut auswendig gelernt, dass es 50-Token-Auszüge in mindestens der Hälfte der Zeit reproduzieren konnte.

Anzeige
Anzeige

Interessanterweise kam Metas Vorgängermodell Llama 1 65B nur auf 4,4 Prozent. Das deutet darauf hin, dass trotz der potenziellen rechtlichen Haftung nicht viel unternommen wurde, um das Auswendiglernen zu verhindern. Insgesamt testete das Team 36 weitere Werke – darunter Klassiker wie 1984 oder Der Hobbit, aber auch weniger bekannte Romane. Generell gilt: Je populärer ein Buch, desto höher offenbar die Reproduktionsrate.

Wo beginnt der Verstoß gegen das Urheberrecht?

Die juristische Debatte konzentriert sich aktuell auf drei zentrale Argumentationslinien: Einige Kläger:innen vertreten die Auffassung, dass schon das Training eines KI-Modells mit urheberrechtlich geschütztem Material eine Rechtsverletzung darstellt. Die Gegenseite verweist allerdings darauf, dass dieses Vorgehen unter bestimmten Voraussetzungen als „Fair Use“ einzustufen ist.

Zweitens steht zur Debatte, ob das Modell selbst als sogenanntes „abgeleitetes Werk“ gilt, wenn es signifikante Textmengen einzelner Werke intern gespeichert hat. In diesem Fall wäre das Modell eine urheberrechtlich geschützte Reproduktion, selbst wenn es den Originaltext nicht dauerhaft ausgibt. Drittens könnte nicht nur das Training, sondern sogar schon die Nutzung des Modells potenziell rechtswidrig sein, wenn Passagen aus Romanen korrekt rekonstruiert werden. Alle drei Argumentationslinien werden derzeit vor US-Gerichten geprüft, und ihr Ausgang könnte weitreichende Konsequenzen für die Entwicklung und Veröffentlichung von KI-Modellen haben.

Open-Source-Modelle: Ein rechtliches Eigentor?

Gerade die zweite Theorie bringt Meta in Bedrängnis. Denn während Unternehmen wie OpenAI, Google oder Anthropic ihre Modelle zunehmend abschotten, erlaubt Llama eine tiefere Analyse. Was als akademische Debatte über Trainingsdaten begann, wird dadurch zur empirisch belegten Realität.

Anzeige
Anzeige

Wie sich zeigt, haben Sprachmodelle wie Llama 3.1 70B große Mengen urheberrechtlich geschützter Werke gespeichert – weit mehr, als selbst die Forscher:innen erwartet hätten. Ob die Ergebnisse der Studie auch in den kommenden Verfahren eine zentrale Rolle spielen, bleibt abzuwarten.

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle Quelle: (Grafik: Dall-E / t3n)

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren