Maschine schlägt Mensch in Geschicklichkeit
Am Geschicklichkeitsspiel Labyrinth beissen sich Menschen seit über 100 Jahren die Zähne aus, um zu verhindern, dass die Stahlkugel auf dem Weg durch einen hölzigen Irrgarten ins falsche Loch fällt. Nun hat eine physische KI-Anwendung das Spiel in sechs Stunden gelernt und spielt es schneller als jeder Mensch.
Forscher der ETH Zürich haben einen KI-Roboter namens CyberRunner entwickelt, der gelernt hat, das Geschicklichkeitsspiel Labyrinth zu spielen. Für alle, die sich nicht mehr daran erinnern: Labyrinth ist ein Geschicklichkeitsspiel, dessen Ziel es ist, eine Kugel von einem gegebenen Anfangspunkt zu einem ebensolchen Endpunkt zu steuern. Auf dem Weg vom Start zum Ziel muss man verhindern, dass die Kugel in eines der Löcher auf dem Labyrinthbrett fällt.
Gesteuert wird die Bewegung der Kugel durch zwei Knöpfe, welche die Neigung des Bretts verändern. Was einfach aussieht, ist in der Praxis sehr schwierig, wie alle wissen, die jemals versucht haben, das Geschicklichkeitsspiel zu meistern, das vielmehr ein Geduldsspiel ist. Das Spiel erfordert feinmotorische Fähigkeiten und räumliches Vorstellungsvermögen, und Menschen brauchen sehr viel Übung, um das Spiel zu beherrschen.
CyberRunner hat es in 6,06 Stunden gelernt und spielt es schneller als jeder Mensch, wie die leitenden ETH-Forscher, Thomas Bi und Professor Raffaello D’Andrea nun melden. Der KI-Roboter übertrifft demnach den menschlichen Rekord für das erfolgreiche Absolvieren des Geschicklichkeitsspiels um über 6 Prozent. Der KI-gesteuerte Roboter wendet dafür jüngste Fortschritte im sogenannten modellbasierten "Reinforcement Learning" auf die physische Welt an und nutzt seine Fähigkeit, informierte Entscheidungen über potenziell erfolgreiche Verhaltensweisen zu treffen, indem es reale Entscheidungen und Aktionen in die Zukunft plant, wie die Forscher schreiben.
Wie Menschen lerne auch der Roboter durch Erfahrung. Während des Spielens erfasse er Beobachtungen durch die "Augen" einer Kamera, die auf das Labyrinth hinabschaue und erhalte "Belohnungen" basierend auf seiner Leistung. Die Erinnerungen an die gesammelte Erfahrung bewahre CyberRunner. Mit dieser Erinnerung lernt der Algorithmus für modellbasiertes "Reinforcement Learning", wie sich das System verhält, und erkennt aufgrund seines Verständnisses des Spiels, welche Strategien und Verhaltensweisen vielversprechender sind (der "Kritiker"), wie die Forscher weiter ausführen. Folglich werde die Art und Weise, wie der Roboter die beiden Motoren - seine "Hände" - zum Spielen des Spiels verwende, kontinuierlich verbessert (der "Akteur"). Wichtig sei, dass der Roboter nicht aufhöre zu spielen, um zu lernen; der Algorithmus läuft laut den Forschern parallel zum Spiel des Roboters. Als Ergebnis wird der Roboter demnach von Durchlauf zu Durchlauf immer besser.
So lernt CyberRunner mit modellbasiertem "Reinforcement Learning". (Source: zVg)
Eine interessante Beobachtung der Forscher lässt aufhorchen: Demnach entdeckte CyberRunner während des Lernprozesses Abkürzungen und schummelte (!), indem es bestimmte Teile des Labyrinths übersprang. Um dies zu verhindern, mussten sie CyberRunner explizit anweisen, keine dieser Abkürzungen zu nehmen.
Raffaello D’Andrea kommentierte die Forschungsergebnisse: "Wir glauben, dass dies das ideale Test-Set-up für Forschung im Bereich maschinelles Lernen und KI in der realen Welt ist. Vor CyberRunner konnten nur Organisationen mit grossen Budgets und massgeschneiderter experimenteller Infrastruktur in diesem Bereich forschen. Jetzt kann jeder für weniger als 200 Dollar an Spitzenforschung im Bereich KI teilnehmen." Darüber hinaus werde es möglich sein, gross angelegte Experimente durchzuführen, sobald Tausende von CyberRunnern in der realen Welt sind, bei denen das Lernen parallel und auf globaler Ebene stattfinde.
KI-Forschung an der ETH kann aber nicht nur Labyrinth spielen, sondern aus dem All auch die Schneehöhe in den Schweizer Bergen messen. Lesen Sie hier mehr dazu.