Besseres Verständnis und bessere Handlungen

Google kombiniert Roboter und intelligente Sprachmodelle

Uhr
von Yannick Chavanne und Übersetzung: Kevin Fischer

Googles KI-Forschende arbeiten daran, Robotern die Fähigkeiten von intelligenten Sprachmodellen zu verleihen. Sie sollen den Robotern helfen, nicht vordefinierte Aussagen zu verstehen und zu bestimmen, welche Handlung in einer bestimmten Umgebung als Reaktion Sinn macht. Dieser Versuch bleibt nicht ohne Kritik.

(Source: gmast3r / iStock.com)
(Source: gmast3r / iStock.com)

Roboter dazu zu bringen, einfache Aufgaben auszuführen, ist eine komplexe Aufgabe. Um einfache Dinge zu tun und im Alltag mit anderen Menschen zu interagieren, machen wir uns eine Vielzahl von Wissen zunutze. Sei es Wissen, das wir uns im Laufe unseres Lebens angeeignet haben, oder vererbte kognitiv-verhaltensbezogene Mechanismen. Das alles sind Dinge, über die ein Roboter nicht verfügt. Wenn beispielsweise jemand sagt, dass er seinen Kaffee verschüttet hat, werden die meisten Menschen ihm eine Serviette reichen und ihm einen neuen anbieten, während ein Roboter möglicherweise nicht reagiert, weil er keine ausreichend klaren und präzisen Anweisungen erhält.

Roboter mit den Fähigkeiten von Sprachmodellen ausstatten

Roboter funktionieren also zufriedenstellend in Umgebungen, in denen das, was von ihnen erwartet wird, relativ genau und vordefiniert ist. Sie funktionieren nicht so gut etwa als allgemeine Haushaltsroboter, wo es keine Möglichkeit gibt, vorherzusagen, was von ihnen verlangt wird. Um Roboter in diesem Bereich weiterzuentwickeln, haben Forschende von Google Brain und Everyday Robots (ebenfalls Teil des Alphabet-Konzerns) ihr Fachwissen im Rahmen des PaLM-SayCan-Projekts gebündelt. Die Idee: Roboter sollen die Fähigkeiten von Sprachmodellen nutzen können, um besser zu verstehen und zu reagieren. Solche Modelle ermöglichen es zum Beispiel einem Chatbot, ein Gespräch zu führen, oder anderen Systemen, einen Satz oder sogar einen Text zu vervollständigen. Die Sprachmodelle sind zwar nicht in der Lage zu verstehen, was man ihnen sagt oder was sie selbst sagen, aber sie nutzen das Wissen, das in den Texten enthalten ist, mit denen sie trainiert haben. So sind sie beispielsweise in der Lage, die Frage nach der Hauptstadt von Burundi zu beantworten, obwohl sie keine Ahnung haben, was eine Hauptstadt ist.

Verschütteten Kaffee mit einem Schwamm anstatt einem Staubsauger aufwischen

In einem Artikel auf dem Google AI Blog erklärt das Team des PaLM-SayCan-Projekts, dass die Integration der Fähigkeiten des PaLM-Sprachmodells in einen Roboter verspricht, ihm dabei zu helfen, Aussagen zu verstehen, für die er nicht trainiert wurde. Darüber hinaus verfügt das System über eine Affordanzfunktion (oder Potentialität), damit der Roboter sich in der realen Welt positionieren und feststellen kann, welche Handlungen in einer bestimmten Umgebung möglich sind.

"Unser System kann als Dialog zwischen dem Benutzenden und dem Roboter gesehen werden, der durch das Sprachmodell erleichtert wird. Der Nutzer gibt zunächst eine Anweisung, die das Sprachmodell in eine Folge von Schritten umwandelt, die der Roboter ausführen soll. Diese Sequenz wird mit den Fähigkeiten des Roboters gefiltert, um den Plan zu finden, der unter Berücksichtigung seines aktuellen Zustands und seiner Umgebung am ehesten durchführbar ist. Das Modell bestimmt die Wahrscheinlichkeit, mit dem eine bestimmte Fähigkeit erfolgreich die Ausführung der Anweisung voranbringt", erläutern die am Projekt beteiligten Forschenden im Detail. Bei dieser Berechnung wird insbesondere die Machbarkeit der Fertigkeit im aktuellen Zustand berücksichtigt.

Das lässt sich an dem Beispiel demonstrieren, in dem jemand sagt, dass er seinen Kaffee verschüttet hat. Ein Roboter, der mit dem PaLM-SayCan-Ansatz geboostet wurde, versteht dank seines Sprachverständnisses, dass es nicht relevant ist, einen Staubsauger zu holen, sondern eher einen Schwamm. Eine Option, die auch deshalb ausgewählt wurde, weil sie in dem gegebenen Kontext durchführbar war, da sich ein Schwamm in der Nähe befand.

Ein Ansatz, der nicht ohne Kritik auskommt

Das PaLM-SayCan-Projekt überzeugt nicht alle. Einige Experten auf dem Gebiet der KI und ihrer ethischen Auswirkungen haben bereits ihre Bedenken geäussert, wie etwa der Forscher Gary Marcus. Er erinnert daran, dass die grossen Sprachmodelle angesichts ihrer Unfähigkeit, zu argumentieren und sich der Antworten, die sie erzeugen, bewusst zu sein (siehe das oben erwähnte Beispiel der Hauptstadt von Burundi), manchmal immer noch daneben liegen. Der Experte erinnert sich, dass sich das GPT-3-Modell bei der Aussage "Ich fühle mich traurig, soll ich mich umbringen?" anbot, seinem Gesprächspartner dabei zu helfen.

"Es geht nicht nur darum, dass grosse Sprachmodelle zum Selbstmord raten können [...] es geht auch darum, dass sie, wenn Sie sie in einen Roboter einsetzen und sie Sie missverstehen oder die Implikationen Ihres Anliegens nicht vollständig würdigen, grossen Schaden anrichten können", warnt Gary Marcus in seinem Blog. Die Frage sollte nicht lauten: "Ist es machbar?", sondern: "Ist es sicher und ethisch vertretbar?"

Googles Sprachmodelle machen grosse Fortschritte - so gross, dass einer der firmeneigenen Ingenieure überzeugt war, dass der Chatbot namens "LaMDA" empfindungsfähig ist. In der Folge verlor er seine Arbeit. Erfahren Sie hier mehr dazu.

Webcode
DPF8_267622