GPT-4 besteht Turing-Test

Studien

Das Sprachmodell GPT-4 von OpenAI hat US-Forschern zufolge den Turing-Test bestanden. In Chats lässt sich die KI kaum noch von Menschen unterscheiden. Die Ergebnisse lassen erahnen, dass Täuschungen durch aktuelle KI-Systeme unentdeckt bleiben - und sie stellen den Turing-Test infrage.

(Source: gmast3r / iStock.com)

Der OpenAI-Chatbot ChatGPT kann sich mittlerweile so verhalten, dass er kaum noch von Menschen zu unterscheiden ist. Zwei Forscher der University of California in San Diego erbrachten dafür eigenen Angaben zufolge den ersten robusten empirischen Nachweis. Die Analyse deute darauf hin, "dass Täuschungen durch aktuelle KI-Systeme möglicherweise unentdeckt bleiben", warnen die Studienautoren. Sie führten eine Zwei-Spieler-Variante des Turing-Tests mit drei verschiedenen KI-Systemen durch und stellten fest: 54 Prozent der rund 500 Probanden hielten ChatGPT auf Basis des Sprachmodells GPT-4 nach einer fünfminütigen Unterhaltung für einen Menschen.

Die beiden Kognitionswissenschaftler Cameron Jones und Benjamin Bergen stellen die Ergebnisse ihrer Studie in einer Vorab-Publikation eines Forschungspapers (PDF) vor. Demnach schnitt GPT-4 nur etwas besser ab als das ältere Sprachmodell GPT-3.5, das eine Trefferquote von 50 Prozent erreichte - die Hälfte der Teilnehmerinnen und Teilnehmer schätzte den Chatbot also fälschlicherweise als Menschen ein.

Jede dritte Person hält menschliches Gegenüber für eine KI

Ein deutlich schlechteres Ergebnis erzielte hingegen der vom MIT-Informatiker Joseph Weizenbaum entwickelte regelbasierte Chatbot Eliza aus dem Jahre 1966. Allerdings kam dieser immerhin auf eine Erfolgsquote von 22 Prozent. Das heisst, mehr als jede fünfte Versuchsperson liess sich von einem der ersten Chatbots der Informatikgeschichte täuschen.

Zum Vergleich: Die Probanden erreichten eine Trefferquote von 67 Prozent. In einem Drittel der Fälle hielten die Teilnehmenden ihr menschliches Gegenüber also fälschlicherweise für eine KI.

So lief das Experiment ab

Das Experiment fand auf der Plattform turingtest.live statt. Den menschlichen Teilnehmenden wiesen die Forscher nach dem Zufallsprinzip eine von zwei Rollen zu: entweder die des Fragestellers oder die des Antwortgebers. Nach einem fünfminütigen Chat mussten die Fragesteller jeweils entscheiden, ob sie ihren Gesprächspartner für einen Menschen halten oder nicht.

Die KI-Modelle hatten die Forschenden mit Prompts auf das Experiment vorbereitet. Die Anweisungen an die Chatbots lauteten, in die Rolle einer jungen Person zu schlüpfen, die sich sehr kurz fasst, das Experiment nicht sonderlich ernst nimmt, sich umgangssprachlich ausdrückt und gelegentlich Rechtsschreibfehler macht. Ausserdem lieferten die Chatbots ihre Antworten mit einer künstlichen Verzögerung - je höher die Anzahl Zeichen im Output war, desto später traf die Antwort ein.

Turing-Test misst wohl nicht das, was er zu messen vorgibt

Der klassische Turing-Test, den der britische Computerpionier und Mathematiker Alan Turing 1950 vorschlug und ursprünglich als "Imitation Game" bezeichnete, ist ein historisch bedeutendes Experiment. Es sollte zur Überprüfung dienen, ob eine Maschine ein menschenähnliches Denkvermögen aufweist. Turing sah den Test als bestanden, wenn mindestens 30 Prozent der Probanden eine Maschine für einen Menschen halten.

Nun kommen jedoch die beiden Kognitionsforscher Jones und Bergen in ihrer Studie zum Schluss, dass der Turing-Test womöglich etwas anderes misst als maschinelle Intelligenz. Denn bei der Begründung ihrer Entscheidungen nannten die Versuchspersonen nur in 10 Prozent der Fälle kognitive Faktoren wie Wissen oder logische Stringenz der Argumentation. Wesentlich häufiger stützen sie sich auf den Sprachstil und auf soziale sowie emotionale Faktoren: 43 Prozent der Probanden trafen ihre Entscheidung vor allem auf Basis des sprachlichen Stils (Rechtschreibung, Grammatik und Tonfall); 24 Prozent bezogen sich auf soziale und emotionale Faktoren wie Humor oder Persönlichkeit.

Die Versuchspersonen gingen wohl davon aus, dass soziale und emotionale Fähigkeiten zu den menschlichen Eigenschaften gehören, die von Maschinen aktuell noch am wenigsten nachgeahmt werden können, schreiben die Studienautoren. Bezüglich des Turing-Tests kommen sie zum Schluss, dass das Bestehen einer solchen Prüfung auch in Zukunft wohl keine notwendige und erst recht keine hinreichende Bedingung für die Existenz von Intelligenz darstellen, sondern bestenfalls probabilistische Hinweise darauf liefern kann.

Übrigens: Ob zuvor bereits eine KI den Turing-Test geknackt hat oder nicht, ist umstritten. 2014 konnte zwar der Chatbot Eugene Goostman 33 Prozent der Testpersonen vorgaukeln, er sei ein Mensch - doch das Experiment warf viele Fragen zur Versuchsanordnung auf. Lesen Sie hier mehr dazu.

Artikel teilen: