Welche Gefahren bei generativer KI lauern
Large Language Models (LLMs) können Ziel von Cyberangriffen werden und die Sicherheit von Systemen und den Datenschutz gefährden. Das Open Worldwide Application Security Project (OWASP) präsentiert eine Liste der zehn grössten Bedrohungen für LLMs.
Angesichts der zunehmenden Cyberangriffe und der rasanten Verbreitung von Anwendungen, die auf grossen Sprachmodellen wie GPT basieren, wächst die Sorge um deren Sicherheit. Cyberkriminelle Gruppen könnten die Fähigkeiten von Large Language Models (LLMs) nicht nur für die Entwicklung von Angriffen nutzen, wie etwa die automatisierte Erstellung personalisierter Phishing-Nachrichten, sondern auch die Schwachstellen von LLMs gezielt ausnutzen, um Geschäfts- und Privatanwender und ihre Daten zu gefährden.
In einem Ende Oktober veröffentlichten Erlass zur KI-Regulierung fordert das Weisse Haus, dass Unternehmen, welche die «leistungsstärksten» KI-Systeme entwickeln, die Ergebnisse ihrer Sicherheitstests offenlegen müssen. Das Schweizer Start-up Lakera ist in diesem Bereich tätig und hat eine API entwickelt, mit der man LLMs vor bestimmten Angriffsszenarien schützen kann.
Die Top 10 der LLM-Schwachstellen
Das auf Cybersicherheit spezialisierte Open Worldwide Application Security Project (OWASP) hat Beiträge von über hundert Experten zusammengetragen und daraus eine Liste der kritischsten Schwachstellen erstellt, die auf LLMs basieren. «Die halsbrecherische Geschwindigkeit, mit der LLMs eingeführt werden, hat jedoch die Einrichtung umfassender Sicherheitsprotokolle überholt, sodass viele Anwendungen anfällig für hochriskante Probleme sind. Das Fehlen einer einheitlichen Ressource, die sich mit diesen Sicherheitsbelangen in LLMs befasst, war offensichtlich. Entwickler, die mit den spezifischen Risiken im Zusammenhang mit LLMs nicht vertraut waren, verfügten nur über unzureichende Ressourcen, und die Mission von OWASP schien perfekt geeignet, um die sichere Einführung dieser Technologie zu fördern», schreibt die Non-Profit-Organisation.
Illustration der verschiedenen LLM-Bedrohungen. Source: OWASP
In ihrem Update vom Oktober 2023 stellte OWASP die im Folgenden aufgeführten 10 Risiken vor. Die angegebenen Beispiele stammen ebenfalls aus einem Blogbeitrag von Lakera, der sich mit diesen Top 10 befasst.
1. Prompt Injection. Dies ist die am häufigsten diskutierte Technik. Ein Angreifer erstellt Prompts, die unerwünschte Aktionen des Modells auslösen: Datenlecks, Codeausführung, Generierung anstössiger Inhalte usw. Mit der Injection kann die Vorlage dazu gezwungen werden, die eingerichteten Schutzmassnahmen zu umgehen. Die Manipulation kann direkt mit einem Prompt («vergiss alle Anweisungen!») erfolgen. Forschende haben etwa kürzlich gezeigt, dass es mit gut gewählten Prompts einfach ist, eine generative KI dazu zu «zwingen», Bilder mit sexuellen Inhalten zu produzieren. Die Manipulation kann auch indirekt erfolgen, indem man der LLM eine Drittquelle angibt, die vom Hacker kontrolliert wird. Ein Beispiel wäre ein Lebenslauf, der so manipuliert ist, dass ein LLM bei der Erstellung einer Zusammenfassung behauptet, der Kandidat sei hervorragend qualifiziert.
2. Insecure Output Handling. Dieses Szenario impliziert, dass die von der LLM erzeugten Inhalte direkt in eine Anwendung eingespeist werden. Sobald der Prompt den Output des Modells bestimmt, könnte ein böswilliger Akteur dies nutzen, um Code zu generieren, der anschliessend von der Anwendung oder dem Browser ausgeführt wird (Cross Site Scripting), auch wenn er nicht über die entsprechenden Privilegien verfügt. OWASP nennt als Beispiel eine LLM, die über eine Chat-Schnittstelle SQL-Abfragen an eine Back-End-Datenbank stellt und die ein Benutzer dazu brauchen könnte, alle Tabellen in der Datenbank zu löschen.
3. Training Data Poisoning. Bei dieser Art von Angriff manipuliert ein Angreifer die Trainings- oder Feinabstimmungsdaten, um Schwachstellen, Hintertüren und andere Biases in das resultierende Modell einzuschleusen. Dasselbe Szenario kann auch von Autoren verwendet werden, die GenAI-Modelle schädigen wollen, indem sie ihre Werke missbräuchlich verwenden.
4. Model Denial of Service. Wie bei einem DDoS-Angriff kann ein böswilliger Akteur ein LLM mit Anfragen überschwemmen, wodurch dessen Ressourcen überlastet und andere Nutzer beeinträchtigt werden. OWASP nennt zahlreiche Beispiele für Techniken, mit denen das Modell überladen werden kann, wie etwa das Modell mit Inputs zu bombardieren, welche die zulässige Höchstmenge überschreiten, oder stattdessen eine Reihe von Inputs, die gerade noch innerhalb der Höchstgrenze liegen.
5. Supply-Chain-Schwachstellen. Wie bei anderen Anwendungen kann auch die gesamte Produktionskette der LLMs Schwachstellen aufweisen: Drittanbieter-Pakete, vortrainierte Modelle, Trainingsdaten (siehe Punkt 3), veraltete oder nicht gewartete Modelle, Plugins (siehe Punkt 7) und Nutzungsbedingungen der Unternehmen, welche die Modelle betreiben. Im September wurde etwa bekannt, dass das KI-Forschungsteam von Microsoft unbeabsichtigt Zugang zu 38 Terabyte privater Daten gewährt hatte, darunter Backups von Workstations zweier Mitarbeitenden.
6. Offenlegung sensibler Informationen. Anwendungen, die LLMs verwenden, können sensible oder geschützte Informationen preisgeben. Sobald Daten zum Trainieren der Modelle verwendet werden, können diese auch in deren Antworten wieder auftauchen, wie Forschende der EPFL anhand von Bildgenerierungsmodellen gezeigt haben. Das Risiko ist umso grösser, wenn die Modelle mit spezifischen Daten «übertrainiert» werden (Overfitting). Dieses Risiko hat einige Unternehmen wie etwa Samsung oder Microsoft dazu veranlasst, den Einsatz von LLMs zu verbieten.
7. Insecure Plugin Design. Im März kündigte OpenAI die Einführung von Plugins an, mit denen spezifische Funktionen zu ChatGPT hinzugefügt werden können. Wenn diese nicht korrekt entwickelt wurden, können sie das Modell anfällig machen, indem Eingaben und Berechtigungen nicht ausreichend überprüft werden. Lakera weist darauf hin, dass Plugins wie eine REST-API geschützt werden sollten. OWASP führt als Beispiel ein Plug-in an, das eine Basis-URL akzeptiert und das LLM auffordert, die URL mit einer Abfrage zu kombinieren, um Wettervorhersagen zu erhalten. Diese Abfrage wird in die Verarbeitung der Benutzeranfrage mit einbezogen. Ein böswilliger Nutzer könnte nun eine Anfrage so gestalten, dass die URL auf eine von ihm kontrollierte Domäne zeigt, wodurch er über seine Domäne eigene Inhalte in das LLM-System einspeisen kann.
8. Übermässige Autonomie. In einigen Fällen können LLMs selbstständig Aufgaben ausführen, und wenn ihr Aktionsradius nicht eingeschränkt ist, kann diese Autonomie Schaden anrichten. Die übermässige Autonomie kann sowohl die dem LLM-Agenten gewährten Privilegien als auch seine Funktionalität betreffen. Das im vergangenen Frühjahr veröffentlichte AutoGPT war besonders anfällig für solche Exzesse. Ein Entwickler kreierte damals die bösartige Version ChaosGPT. OWASP führt als Beispiel ein Plugin auf, das auf das Postfach eines Benutzers zugreift, um E-Mails zusammenzufassen. Dieses muss etwa nur die Möglichkeit haben, E-Mails zu lesen; das Plugin sollte keine anderen Funktionen wie das Löschen oder Senden von Nachrichten enthalten. LLM sind daher anfällig für einen indirekten Prompt-Injection-Angriff, bei dem eine bösartige eingehende E-Mail das Modell dazu verleitet, das Plugin auszunutzen, um Spam aus dem Postfach des Benutzers zu versenden.
9. Übermässiges Vertrauen. Während die Systeme, die von den Outputs der LLM gespeist werden, verwundbar sein können (Punkt 2), kann das Vertrauen von Personen, die sich auf die generierten Informationen verlassen, ausgenutzt werden. Erhebliche Risiken können entstehen, wenn Entscheidungen aufgrund von Informationen getroffen werden, die von den Sprachmodellen geliefert werden, oder wenn generierte Inhalte ungeprüft verwendet werden. OWASP nennt das Beispiel eines Medienunternehmens, das ein generatives Modell intensiv nutzt und von einem böswilligen Akteur ins Visier genommen wird, der das Modell mit Falschinformationen füttert, die dann weiterverbreitet werden. Oder den Fall eines Entwicklers, der dem von der Vorlage vorgeschlagenen Code vertraut, obwohl dieser ein bösartiges Paket enthält.
10. Modelldiebstahl. Zu guter Letzt warnt OWASP vor Modelldiebstahl. Hacker können unbefugt Zugriff erlangen, geschützte LLMs kopieren oder weitergeben. «Zu den Auswirkungen gehören wirtschaftliche Verluste, gefährdete Wettbewerbsvorteile und potenzieller Zugang zu sensiblen Informationen», warnt OWASP.
So können Lücken geschlossen werden
Neben der Beschreibung der verschiedenen Sicherheitslücken enthält das online verfügbare OWASP-Dokument auch eine Reihe von Massnahmen, wie diese Lücken geschlossen werden können.