Klage von Autoren

Meta hat sein Llama mit gestohlenen Daten gefüttert

Uhr
von Filip Sinjakovic und tme

Meta soll mit illegal erworbenen Daten sein KI-Modell Llama 3 trainiert haben. Die Daten stammen vermutlich von der Schattenbibliothek Library Genesis. Auch Werke von Schweizer Autorinnen und Autoren könnten sich darunter befinden.

(Source: Anna Hinckel / Unsplash.com)
(Source: Anna Hinckel / Unsplash.com)

Der Tech-Gigant Meta hat eine weitere Klage am Hals. Aus diesen Gerichtsdokumenten geht hervor, dass Meta unerlaubt urheberrechtlich geschützte Daten für das Training seines Large-Language-Modells (LLM) Llama 3 verwendet haben soll. Wie "The Atlantic" berichtet, wird Meta beschuldigt, rund 80 Terabyte an Daten von Library Genesis (Libgen) heruntergeladen zu haben. Libgen ist die grösste illegale Sammlung von Büchern und wissenschaftlichen Texten im Internet.

Werke aus der Schweiz vielleicht auch betroffen

Diese Informationen kamen demnach ans Licht, als Meta im Rahmen des aktuellen Gerichtsprozesses firmeninterne Chat-Konversationen offenlegen musste. Zu den Klägern zählen neben dem US-amerikanischen Schriftsteller Richard Kadrey auch andere Autorinnen und Autoren von Büchern, die auf Libgen enthalten sind. Alex Reisner, Autor bei "The Atlantic", hat im Rahmen seiner Recherchen ein Online-Tool entwickelt, um nach Autoren und Werken in Libgen zu suchen.

Gemäss einer Recherche von "Blick" fand das Tool auch Werke von Schweizer Autorinnen und Autoren wie Martin Suter, Milena Moser, Lukas Bärfuss und Friedrich Dürrenmatt bei Libgen. Das lege die Vermutung nahe, dass Llama 3 womöglich auch mit diesen Texten trainiert wurde.

Meta beruft sich auf Fair Use

Auf welche Daten Meta genau zugegriffen hat, könne laut "The Atlantic" nicht festgestellt werden. Die Datenbank von Libgen wachse konstant, und das Tool beziehe sich lediglich auf einen Datensatz vom Januar 2025.

Meta selbst beruft sich vor Gericht auf Fair-Use-Richtlinien. Diese erlauben nach US-amerikanischen Recht in bestimmten Fällen die lizenzfreie Nutzung von urheberrechtlich geschütztem Material. Ein LLM würde aus eingegebenen Daten etwas völlig anderes machen, so die Rechtfertigung von Meta. Allerdings gebe es auch Anzeichen, dass Meta per Torrent auf die gestohlenen Daten zugegriffen hat und sie daher weiter verbreitet wurden. Auf Anfrage von "Blick" wollte sich Meta nicht zu der Situation äussern.

Verurteilung hätte Folgen

Die Datenbeschaffung für das Training von LLMs stellt schon länger ein Problem in der KI-Branche dar. In den USA und Europa habe es diesbezüglich schon mehrere Klagen gegeben. Auch sei eine Entfernung von einzelnen Daten aus einem LLM praktisch nicht möglich, heisst es weiter. Die KI müsste unter hohem Zeit- und Kostenaufwand komplett neu trainiert werden. Da viele Meta-Dienste Llama 3 integriert haben, ist die Wahrscheinlichkeit einer Datenkontamination hoch. Ein Urteil zu Ungunsten von Meta hätte daher weitreichende Folgen.

 

Der Umgang von KI-Entwicklern mit urheberrechtlich geschützten Daten sorgt immer wieder für Kontroversen. Im Dezember 2024 wurde der ehemalige OpenAI-Forscher Suchir Balaji tot in seiner Wohnung aufgefunden. Balaji war einige Monate zuvor schon in den Medien, weil er seinen ehemaligen Arbeitgeber beschuldigte, gegen das US-Urheberrechtsgesetz zu verstossen. Lesen Sie hier mehr dazu.

Webcode
ys67aBct