Big Data & ­Analytics

Generative künstliche Intelligenz – die ZIP-Files des Internets

Uhr
von Mattia Ferrini, Director, Artificial Intelligence, KPMG Schweiz

Durch die Komprimierung von Daten können generative KI-Modelle aus einer unglaublichen Menge von Daten neue ­Inhalte generieren. Diese bergen jedoch das Risiko von Verzerrungen, unoriginellen Ergebnissen und Urheberrechts­verletzungen.

Menschen lernen auf viele Arten. Einerseits prägen wir uns Begriffe und das Einmaleins ein, erlernen Regeln und wenden diese an. Andererseits entwickeln wir aus der Erfahrung ein Verständnis dafür, was plausibel ist und was nicht. So erkennen wir zum Beispiel, dass nur wenige Menschen in der Schweiz grösser sind als zwei Meter. 

GenAI: Algorithmus zur Datenkomprimierung

In ähnlicher Weise lernen auch generative KI-Modelle (GenA­I). Durch das Erlernen von Gemeinsamkeiten zwischen Beispielen und Mustern müssen sich Menschen und GenAI-Modelle nicht an alle einzelnen Hunde erinnern, die sie gesehen haben, um eine Vorstellung davon zu haben, wie ein Hund aussehen könnte. Einfach ausgedrückt: Gen­AI ist letztlich ein Algorithmus zur Datenkomprimierung. 

Der Preis der Komprimierung

Durch die Datenkomprimierung können generative KI-Modelle wie ChatGPT aus einer unglaublichen Datenmenge ein enormes Wissen destillieren. Das hat allerdings seinen Preis. Bei der Komprimierung kann GenAI Verzerrungen in den Daten wiederholen oder gar verstärken: Wenn eine KI viele Beispiele von weissen, männlichen Ärzten gesehen hat, könnte sie ein archetypisches Bild von Ärzten erstellen, das weiss und männlich ist. Ausserdem lernen GenAI-Modelle keine Regeln auswendig und wenden sie an, sondern versuchen, Muster zu erkennen. Aus diesem Grund addieren sie manchmal Zahlen falsch.

Zudem liegt ein Risiko darin, dass GenAI-Algorithmen derzeit nicht in der Lage sind, zwischen Konzepten und Beispielen zu differenzieren, die durch Datenkomprimierung generiert wurden (eine Vorstellung von einem Hund, die sich aus Hunderten von Hundebeispielen ergibt), und solchen, die originär sind (ein ganz bestimmter Hund). So kann GenAI nicht zwischen einem von Hemingway geschriebenen Buch und einem erfundenen Buch unterscheiden, das Hemingways Prosa nachahmt. Diese Unfähigkeit führt dazu, dass GenAI völlig glaubwürdige Personen, Ereignisse und Bücher fabrizieren und selbstbewusst über sie sprechen kann. 

Gleichzeitig müssen auch urheberrechtliche Risiken berücksichtigt werden. Denn wenn urheberrechtlich geschützte Werke in den durch GenAI generierten Inhalten noch als solche erkennbar sind, bräuchte es für eine kommerzielle Nutzung grundsätzlich die Einwilligung der Urheberin oder des Urhebers.

Unscharfe Kopien des Webs

GenAI-Algorithmen werden oft als Algorithmen beschrieben, die in der Lage sind, neue Inhalte zu erstellen. Wenn wir sie jedoch als einfache Datenkompressions-Algorithmen betrachten, können wir die Grenzen ihres kreativen Prozesses besser verstehen. Zudem verlieren sie so bereits einen Grossteil ihres Reizes. Schliesslich schauen wir heute auch nicht mehr mit Verwunderung auf ZIP- und MP3-Dateien. 

Letztlich besteht das grösste Risiko für Unternehmen und Investoren darin, einem Hype aufzusitzen. Technologie-Investitionen sollten nicht auf überzeugenden Erzählungen beruhen, sondern auf einem differenzierteren Verständnis dessen, was Technologien wirklich leisten können. So stellte Ted Chiang im "New Yorker" kürzlich fest, dass ChatGPT ein unscharfes JPEG des Webs sei und dass eine unscharfe Kopie eines unoriginellen Werks kein guter Weg sei, um ein originelles Werk zu schaffen. 

Webcode
BoEMmrWs