Wild Card von Christof Zogg

Die Sprache, unendliche Weiten – oder wenn Science-Fiction Wirklichkeit wird

Uhr

Vor 40 Jahren haben sich Drehbuchautoren von «Star Trek» vorgestellt, dass Menschen in 250 Jahren nur noch per ­Sprache mit ihren Computern interagieren werden. Jetzt ist es 200 Jahre früher passiert. Welche Verbesserungsschritte für diesen grossen Sprung nötig waren, davon handelt diese Kolumne.

(Source: Tanapong/stock.adobe.com)
(Source: Tanapong/stock.adobe.com)

In "The Voyage Home", der vierten Episode der "Star Trek"-Kinofilmreihe, wird ein Teil der Crew der USS Enterprise ins San Francisco der 1980er-Jahre zurückgebeamt. Dort versucht Chefingenieur Scotty einem zeitgenössischen Macintosh die Formel für transparentes Aluminium zu entlocken. Wie gewohnt spricht er das Gerät mit "Computer" an. Als dieser nicht reagiert, schiebt ihm Chefarzt Pille gönnerhaft die Maus rüber. Doch als auch er, die Maus als Handmikrofon nutzend, das Kommando "Hello Computer" einspricht, bleibt das rückständige Gerät stumm. Dank Keyboardeingabe wird die Formel dann doch noch gefunden und das obligate Happy End ermöglicht. Das war vor knapp 40 Jahren und galt als unerreichbare Science-Fiction. 

Nun können wir zwar schon seit einigen Jahren mit Geräten sprechen – sei es in der Callcenter-Warteschlange oder mit den heimischen Smarthome-Lautsprechern von Amazon und Co. Und selbst die erste Version von SBB Mobile Preview integrierte einen Voice-Fahrplan, der gesprochene Fahrplananfragen wie etwa "vo Khur nach Filisur" erkannte.  Doch diese Mensch-Computer-Sprachinteraktionen waren ziemlich bescheiden – zu ungenügend die Spracherkennung ("Nein, ich möchte nicht von Chlor nach Tinktur fahren."), zu dünn die Antworten ("Auf der Website rhaetischebahn.ch steht dazu Folgendes …") und zu roboterhaft die synthetische Sprachausgabe. Doch das hat sich am 24. September 2024 für immer verändert, als Open­AI in ChatGPT den Advanced Voice Mode aktivierte. Dieser Entwicklungsschritt war epochal, weil erstmals die akustische Illusion einer realen menschlichen Interaktion entstand.

Was hat den wahrnehmungstechnischen Tipping Point bewirkt? Zunächst mussten die Spracherkennung und die Antwortformulierung drastisch verbessert werden, was dank der neuen, generativen Sprachmodelle gelang, hier aber aus Platzgründen nicht ausgeführt werden kann. Doch mindestens so entscheidend war die ungleich menschlichere Sprachausgabe. Hier hat die Verbesserung vieler kleiner Details zu einem grossen Entwicklungssprung geführt.

Zum einen erkennt das Modell die Nuancen unterschiedlicher Betonungen und kann so zuverlässig Fragen von Aussagen unterscheiden. Zum anderen setzen die Algorithmen gekonnt unterschiedlich lange Wortpausen. Man kann ChatGPT sogar bitten, Füllwörter wie "Ähs" oder "Ehms" einzustreuen. Und schliesslich darf man den Voicebot auch unhöflich, aber typisch menschlich, mitten im Satz unterbrechen, was sich dank der geringen Latenz – das Modell verstummt augenblicklich – sehr natürlich anfühlt. 

Et voilà, fertig ist die ausserordentlich kluge, stets geduldige Assistentin, die in beinahe jeder Sprache (Mundart nach wie vor auf Fremdschäm-Niveau) so gekonnt parliert, dass man fast nicht mehr umhin kommt, sich artig für Antworten zu bedanken und höflich um weitere Auskunft zu bitten. 

Ob wir so weit wie Microsoft-CEO Satya Nadella gehen und bereits das Ende klassischer Software prophezeien wollen, überlasse ich der geneigten Leserschaft. Dass damit aber die Vorstellungskraft der damaligen Drehbuchautoren übertroffen wurde und somit Science-Fiction in der Realität angekommen ist, dazu stehe ich. Montgomery "Scotty" Scott sei mein Zeuge.

Webcode
AoRtMaMT