Apple, Nvida und weitere haben ihre KI-Modelle ohne Zustimmung mit YouTube-Inhalten trainiert

Auch namhafte Youtuber wie PewDiePie sind vom Daten-Scraping betroffen. (Foto: Rokas Tenys/Shutterstock)
Große Tech-Unternehmen füttern derzeit im Rennen um die besten KI-Modelle ihre Software gerne mit Daten, die zuvor aus öffentlich zugänglichem Material im Internet zusammengetragen wurden.
Das Problem dabei: Die Urheber:innen der Texte, Videos und Bücher werden darüber in der Regel weder informiert, noch erhalten sie irgendeine Kompensation für die Verwendung ihres Werks. Eine Recherche der Non-Profit-Nachrichtenorganisation Proof News hat kürzlich das erschreckende Ausmaß des Datenklaus aufgedeckt.
Regelwidrig entwendete Daten: Nicht nur Nvidia und Apple greifen darauf zurück
173.536 Untertitel-Transkripte von Youtube-Videos enthält der Datensatz Youtube Subtitles, den die Non-Profit-Organisation EleutherAI zusammengestellt und bereits 2020 veröffentlicht hat. 48.000 Youtube-Kanäle sind davon betroffen.
Youtube Subtitles ist wiederum Teil eines noch größeren Datenbergs mit Namen The Pile, der bis vor kurzem öffentlich zugänglich heruntergeladen werden konnte. Die Proof-News-Untersuchung hat ergeben, dass viele namhafte Player in der KI-Branche auf diese Daten zugegriffen haben, um ihre KI-Modelle damit zu trainieren, darunter Apple, Nvidia, Anthropic und Salesforce.
Wie das Tech-Magazin Wired berichtet, weigert sich OpenAI bislang erfolgreich, die Frage zu beantworten, ob das Unternehmen auch von Youtube gesammeltes Material genutzt habe.
Scraping: Tech-Konzerne profitieren, Kreative haben das Nachsehen
Die gescrapten Untertitel stammen zum Teil von offiziellen Universitätskanälen wie dem des MIT und Harvard, aber auch Nachrichtenmedien wie das Wall Street Journal, BBC und diverse Late-Night-Formate wie Last Week Tonight with John Oliver sind betroffen.
Zudem enthält der Datensatz auch Material aus Videos von Channels, hinter denen mehr oder weniger Einzelpersonen mit großer Followerschaft stehen, zum Beispiel Gaming-Influencer PewDiePie oder Tech-Youtuber Marques Brownlee, der seinem Ärger über das Vorgehen der Firmen bereits auf X Luft gemacht hat.
Wie die Creators immer wieder – so auch in diesem Fall – scharf kritisieren, wurde über die Verwendung ihrer Arbeit weder eine Erlaubnis eingeholt, noch gab es dafür eine finanzielle Entschädigung. Das ist für viele vor allem deshalb ein Skandal, weil mit ihrem geistigen Eigentum Tools trainiert werden, die ihre kreative Arbeit letztendlich überflüssig machen sollen.
Datenklau auf Youtube: Regelverstoß ohne Folgen
Eigentlich verstößt dieses Vorgehen auch gegen Youtubes Geschäftsbedingungen, das Scraping ausdrücklich verbietet. Große Tech-Firmen wie Anthropic berufen sich in ihren Statements aber darauf, dass sie ja selbst kein Scraping vorgenommen, sondern lediglich einen Datensatz genutzt hätten, der von Dritten erstellt wurde.
Schon seit den Anfangstagen des Internets sind Streitfragen zum Thema Urheberrecht untrennbar mit dem Medium verbunden und nicht immer wurden dafür für alle zufriedenstellende Lösungen gefunden. Auch derzeit ist die rechtliche Situation nicht eindeutig geklärt, was den Tech-Konzernen ziemlich freie Hand lässt und sich nachteilig für Autor:innen jeder Art auswirkt.
Youtube selbst unternimmt auch nichts gegen den Regelverstoß, sehr wahrscheinlich, weil Scraping auch beim Mutterunternehmen Google regelmäßig Anwendung findet. Besonders Einzelpersonen haben das Nachsehen, während große Medienkonzerne langsam beginnen, Kompensationsdeals mit den KI-Firmen abzuschließen.
Problematisch ist zudem, dass News Proof mit seinem eigens für die Recherche erstellten Tool aufdecken konnte, dass der Datensatz auch voreingenommene, rassistische Inhalte sowie unwissenschaftliche Verschwörungstheorien enthält, was negative Auswirkungen auf die trainierten KI-Modelle haben dürfte, die dann mit den exakt gleichen Vorurteilen operieren.
Lumas Dream Mashine AI verwandelt Fotos in beeindruckende Videos