Anzeige
Anzeige
News

Apple, Nvida und weitere haben ihre KI-Modelle ohne Zustimmung mit YouTube-Inhalten trainiert

Eine groß angelegte Recherche hat ergeben, dass viele der marktführenden KI-Firmen ihre Modelle mit Datensätzen trainieren, die durch Scraping auf Youtube generiert wurden. Das stößt auf Unmut bei den Creators.

Von Christian Weindl
2 Min.
Artikel merken
Anzeige
Anzeige

Auch namhafte Youtuber wie PewDiePie sind vom Daten-Scraping betroffen. (Foto: Rokas Tenys/Shutterstock)

Große Tech-Unternehmen füttern derzeit im Rennen um die besten KI-Modelle ihre Software gerne mit Daten, die zuvor aus öffentlich zugänglichem Material im Internet zusammengetragen wurden.

Anzeige
Anzeige

Das Problem dabei: Die Urheber:innen der Texte, Videos und Bücher werden darüber in der Regel weder informiert, noch erhalten sie irgendeine Kompensation für die Verwendung ihres Werks.  Eine Recherche der Non-Profit-Nachrichtenorganisation Proof News hat kürzlich das erschreckende Ausmaß des Datenklaus aufgedeckt.

Regelwidrig entwendete Daten: Nicht nur Nvidia und Apple greifen darauf zurück

173.536 Untertitel-Transkripte von Youtube-Videos enthält der Datensatz Youtube Subtitles, den die Non-Profit-Organisation EleutherAI zusammengestellt und bereits 2020 veröffentlicht hat. 48.000 Youtube-Kanäle sind davon betroffen.

Anzeige
Anzeige

Youtube Subtitles ist wiederum Teil eines noch größeren Datenbergs mit Namen The Pile, der bis vor kurzem öffentlich zugänglich heruntergeladen werden konnte. Die Proof-News-Untersuchung hat ergeben, dass viele namhafte Player in der KI-Branche auf diese Daten zugegriffen haben, um ihre KI-Modelle damit zu trainieren, darunter Apple, Nvidia, Anthropic und Salesforce.

Wie das Tech-Magazin Wired berichtet, weigert sich OpenAI bislang erfolgreich, die Frage zu beantworten, ob das Unternehmen auch von Youtube gesammeltes Material genutzt habe.

Anzeige
Anzeige

Scraping: Tech-Konzerne profitieren, Kreative haben das Nachsehen

Die gescrapten Untertitel stammen zum Teil von offiziellen Universitätskanälen wie dem des MIT und Harvard, aber auch Nachrichtenmedien wie das Wall Street Journal, BBC und diverse Late-Night-Formate wie Last Week Tonight with John Oliver sind betroffen.

Zudem enthält der Datensatz auch Material aus Videos von Channels, hinter denen mehr oder weniger Einzelpersonen mit großer Followerschaft stehen, zum Beispiel Gaming-Influencer PewDiePie oder Tech-Youtuber Marques Brownlee, der seinem Ärger über das Vorgehen der Firmen bereits auf X Luft gemacht hat.

Anzeige
Anzeige

Wie die Creators immer wieder – so auch in diesem Fall – scharf kritisieren, wurde über die Verwendung ihrer Arbeit weder eine Erlaubnis eingeholt, noch gab es dafür eine finanzielle Entschädigung. Das ist für viele vor allem deshalb ein Skandal, weil mit ihrem geistigen Eigentum Tools trainiert werden, die ihre kreative Arbeit letztendlich überflüssig machen sollen.

Datenklau auf Youtube: Regelverstoß ohne Folgen

Eigentlich verstößt dieses Vorgehen auch gegen Youtubes Geschäftsbedingungen, das Scraping ausdrücklich verbietet. Große Tech-Firmen wie Anthropic berufen sich in ihren Statements aber darauf, dass sie ja selbst kein Scraping vorgenommen, sondern lediglich einen Datensatz genutzt hätten, der von Dritten erstellt wurde.

Schon seit den Anfangstagen des Internets sind Streitfragen zum Thema Urheberrecht untrennbar mit dem Medium verbunden und nicht immer wurden dafür für alle zufriedenstellende Lösungen gefunden. Auch derzeit ist die rechtliche Situation nicht eindeutig geklärt, was den Tech-Konzernen ziemlich freie Hand lässt und sich nachteilig für Autor:innen jeder Art auswirkt.

Anzeige
Anzeige

Youtube selbst unternimmt auch nichts gegen den Regelverstoß, sehr wahrscheinlich, weil Scraping auch beim Mutterunternehmen Google regelmäßig Anwendung findet. Besonders Einzelpersonen haben das Nachsehen, während große Medienkonzerne langsam beginnen, Kompensationsdeals mit den KI-Firmen abzuschließen.

Problematisch ist zudem, dass News Proof mit seinem eigens für die Recherche erstellten Tool aufdecken konnte, dass der Datensatz auch voreingenommene, rassistische Inhalte sowie unwissenschaftliche Verschwörungstheorien enthält, was negative Auswirkungen auf die trainierten KI-Modelle haben dürfte, die dann mit den exakt gleichen Vorurteilen operieren.

Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos

Lumas Dream Machine AI verwandelt Fotos in beeindruckende Videos Quelle:

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige