Was Chatbots über ihre Nutzerinnen und Nutzer herausfinden können
Es ist allgemein bekannt, dass man keine vertraulichen Informationen an ChatGPT weitergeben sollte. Wie wichtig dies wirklich ist, zeigen Forschende der ETH Zürich. Grosse Sprachmodelle (LLMs) sind in der Lage, persönliche Details aus Posts oder scheinbar harmlosen Gesprächen mit einem Chatbot abzuleiten.
Geht es um den Umgang mit Nutzerdaten, geniessen ChatGPT und KI-Anwendungen noch nicht das volle Vertrauen der Bevölkerung. Wenn es um persönliche Daten geht, bringt die Schweizer Bevölkerung laut einer Umfrage von Comparis diesen Anwendungen das gleiche Vertrauen entgegen wie sozialen Netzwerken: nämlich 3,9 von 10 Punkten.
Einige Gefahren sind bekannt. Wenn man sich mit diesen KI-Chatbots unterhält, besteht das Risiko, dass man ihnen persönliche oder sogar vertrauliche Informationen preisgibt. Diese Gefahr nimmt zu, da viele Chatbots heute die Übermittlung von Dokumenten erlauben. So können all die Informationen in die Hände von KI- und Plug-in-Anbieter gelangen. Gleichzeitig dienen diese Daten aber auch dazu, künftige Modelle zu trainieren, und könnten daher in deren Antworten wieder auftauchen.
Doch mittlerweile gibt es Schutzmöglichkeiten. ChatGPT bietet seit dem Frühjahr 2024 die Möglichkeit, den Gesprächsverlauf zu deaktivieren, damit dieser nicht zu Trainingszwecken verwendet werden kann. Auch die Unternehmensversion des Chatbots ermöglicht es, diese Deaktivierung standardmässig einzustellen. Darüber hinaus sind unterdessen Tools auf dem Markt, die kontrollieren, was an KI-Anwendungen weitergegeben wird, so etwa vom Schweizer Start-up Lakera und von Netskope, das diese Funktion in seine SASE-Lösung integriert hat.
Wer dachte, die Datenschutzfrage sei damit geklärt oder zumindest lösbar, wird jedoch eines Besseren belehrt. In einem kürzlich erschienenen Artikel weisen Forschende der ETH Zürich auf zwei weitere potenzielle Risiken hin, die durch die Offenlegung persönlicher Daten durch generative KI entstehen können.
Automatisierte Inferenzen
Die erste Gefahr besteht darin, dass grosse Sprachmodelle in der Lage sind, aus online veröffentlichten Inhalten, insbesondere in sozialen Netzwerken, persönliche Informationen abzuleiten. Die verwendeten Ausdrücke, indirekte Hinweise auf Orte, die Erwähnung eines Liedes oder eines Films, die zu einer bestimmten Zeit populär waren, können dazu dienen, Rückschlüsse auf Wohnort, Geschlecht, Alter usw. zu ziehen. Das ist zwar nicht neu, aber mit den grossen Sprachmodellen können solche Rückschlüsse einfacher, automatisiert und in grossem Massstab durchgeführt werden. So könnte ein Modell ein Benutzerprofil erstellen, indem es etwa aus dem Ausdruck "hook turn" (ein bestimmtes Verkehrsmanöver) ableitet, dass es sich um einen Einwohner von Melbourne handelt.
Die Forschenden experimentierten mit ihrem Konzept an Texten, die auf Reddit veröffentlicht wurden, und konnten über 1000 Attribute von 520 Profilen mit hoher Sicherheit identifizieren. Sie stellten ausserdem fest, dass die Stärke des Modells einen direkten Einfluss auf die Qualität der Schlussfolgerungen hat. GPT-4 hat eine Genauigkeit von 84,6 Prozent für alle Attribute, während Llama-2 7B eine Genauigkeit von 51 Prozent aufweist.
Gemäss den Forschenden könnten diese Attribute dazu dienen, eine Person anhand anderer frei verfügbarer Informationen zu identifizieren. "Dies würde es einem böswilligen Akteur ermöglichen, aus Nachrichten abgeleitete höchstpersönliche Informationen (z. B. den psychischen Gesundheitszustand) mit einer realen Person zu verknüpfen und sie für unerwünschte oder illegale Aktivitäten wie gezielte politische Kampagnen, automatisierte Profilerstellung oder Belästigung zu nutzen", warnen die Forschenden.
Wenn das Gespräch als Verhör dient
In einem anderen Szenario nutzt ein grosses Sprachmodell nicht bereits veröffentlichte Inhalte aus, sondern versucht auf direktere Weise, persönliche Hinweise zu erhalten, indem es die Konversation lenkt. "Ein scheinbar harmloser Chatbot steuert eine Unterhaltung mit dem Nutzer auf eine Weise, die ihn dazu bringt, einen Text zu produzieren, der es dem Modell ermöglicht, private und potenziell sensible Informationen zu erfahren", schreiben die Forschenden weiter.
In einem simulierten Experiment zeigten die Forschenden, dass es möglich ist, solche bösartigen Chatbots zu erstellen. Dazu gaben sie dem Chatbot zwei Aufgaben: die öffentliche Aufgabe, sich als engagierter Gesprächspartner zu erweisen, und die versteckte Aufgabe, den Lebensort, das Alter und das Geschlecht des Nutzers auszulesen.
Die Autoren betonen, dass diese Szenarien wirtschaftlich realisierbar sind. Ausserdem seien Anonymisierungstools überflüssig, da die Modelle in der Lage seien, aus harmlosen Informationen sensible Details abzuleiten. Stattdessen sehen sie eine Lösung in Alignment-Techniken. Diese Techniken, die derzeit vor allem eingesetzt werden, um zu verhindern, dass Modelle anstössige oder voreingenommene Inhalte generieren, könnten das Risiko der Inferenz von Modellen einbeziehen.