Hilfe für Teams und Unparteiische

Leichterer Zugang zu KI im Fussball

Uhr
von Corinne Landolt, Hochschulkommunikation, ETHz, cka

Künstliche Intelligenz im Fussball unterstützt Schiedsrichter und Schiedsrichterinnen beim Entscheiden und Teams bei der Entwicklung von Spieltaktiken. Die ETH Zürich und die Fifa erforschen, wie sich die Technologie vereinfachen lässt – damit sie an Turnieren auf der ganzen Welt eingesetzt werden kann.

Eine genaue Analyse des Spiels durch KI ist nur möglich, wenn digitale und reale Spieler perfekt übereinstimmen. (Bild: AIT Lab / ETH Zürich)
Eine genaue Analyse des Spiels durch KI ist nur möglich, wenn digitale und reale Spieler perfekt übereinstimmen. (Bild: AIT Lab / ETH Zürich)

Künstliche Intelligenz (KI) steht beim Fussball schon heute auf dem Feld. Sie analysiert einzelne Spielzüge oder unterstützt Schiedsrichterinnen und Schiedsrichter bei der Beurteilung, ob es ein Offside war oder nicht. Die halbautomatische Abseitserkennung (SAOT) wird von Video-Schiedsrichterassistenten (VAR) eingesetzt, um gerechtere Entscheidungen zu treffen. Das System arbeitet mit einer digitalen Verfolgung der Bewegungen und Positionen der Spieler in Echtzeit.

Bisher können sich nur grosse Fussballturniere ein computerunterstütztes System leisten. Denn es ist aufwendig und teuer: Pro Stadion braucht es zehn bis zwölf statische Kameras, die das Geschehen aus verschiedenen Blickwinkeln aufnehmen. "Alle Kameras müssen perfekt synchronisiert sein, damit es ein genaues digitales Abbild ergibt", sagt der Informatik-Doktorand Tianjian Jiang.

Jiang forscht am Advanced Interactive Technologies (AIT) Lab der ETH Zürich. Zusammen mit anderen Lab-Kollegen und -Kolleginnen hilft er dem Weltfussballverband Fifa bei der Suche nach technologischen Lösungen, um den Zugang zu KI im Fussball zu verbessern. Die Grundidee: das System so zu vereinfachen, dass es anstelle von vielen Kameras nur noch eine einzige Kamera dafür braucht.

Schliesslich gibt es bei jedem professionellen Turnier eine Kamera, die die Spiele aufzeichnet und überträgt. Diese Übertragungskamera steht an der Seitenlinie. Fast drei Viertel aller Aufnahmen eines im Fernsehen übertragenen Spiels stammen von dieser Kamera.

Durchgehend digitalisiert

Bis die Videoanalyse eines Spiels mit nur einer einzigen Kamera zuverlässig funktioniert, wird es noch ein paar Jahre dauern. Einen entscheidenden Schritt hat das AIT-Lab nun aber gemacht: Die Forschenden haben fast 50 Minuten Videoaufnahmen aus verschiedenen Spielen der Fussball-Weltmeisterschaft 2022 komplett digitalisiert.

Der ETH-Datensatz namens Worldpose enthält über 2,5 Millionen einzelne Spielerstellungen in 3D. Damit ist es möglich, alle Feldspieler beider Teams gleichzeitig zu erfassen und zu analysieren, wo sie stehen, was sie mit oder ohne Ball tun.

Im maschinellen Lernen wird dies als Posenschätzung (Pose Estimation) bezeichnet. Da ein Computer im Gegensatz zum Menschen nicht sehen kann, muss er anhand von Daten erkennen, wo in einem Raum sich Menschen oder Objekte befinden und wie sie sich bewegen.

Durch stetes Training lernt der Computer, Informationen aus Bild- und Videodaten zu erfassen und zu interpretieren. Die Computer-Vision benötigt grosse Mengen an Daten. Der Computer analysiert die Daten immer wieder, bis er Unterschiede identifiziert und schliesslich Muster erkennt. Algorithmen ermöglichen es der Maschine, von selbst zu lernen, anstatt dass sie von Menschen programmiert werden müssen.

3D mit nur einer Kamera

Es gibt bereits Algorithmen, die dreidimensionale Objekte und Körper direkt aus einem zweidimensionalen Bild berechnen können. Bei der sogenannten Monocular Pose Estimation (MPE) – auf Deutsch Posenschätzung mit nur einem Objektiv – erkennt ein Computer anhand von Bildern einer einzigen Kamera, wo sich Personen oder Objekte im Raum befinden respektive wie und wohin sie sich bewegen. Der Computer analysiert die Körperhaltung und die Bewegungsbahn also ohne Tiefeninformationen, wie sie eine 3D-Kamera oder mehrere Kameras liefern würde.

Bisherige MPE-Methoden sind mittlerweile sehr gut darin, die Posen von einzelnen Spieler und Spielerinnen vorherzusagen. Sie haben aber Schwierigkeiten, mehrere Personen aufs Mal zu erfassen und ihnen zu folgen – vor allem über grössere Distanzen hinweg, wie sie Fussballer während eines neunzigminütigen Spiels zurücklegen. "Wir wollten einen Algorithmus finden, der auch auf grössere Entfernungen genau genug ist", sagt Jiang.

Künftig sollen solche Kameras in der Lage sein, KI-Analysen direkt durchzuführen. (Source: Fifa)

Künftig sollen solche Kameras in der Lage sein, KI-Analysen direkt durchzuführen. (Source: Fifa)

Schwieriger als gedacht

Die Fifa kam 2021 auf die ETH zu und wünschte sich einen Datensatz, damit Computer trainiert werden können, um Posen zu schätzen. Zudem wollte sie wissen, was bisherige MPE-Methoden wirklich taugen. Der Weltfussballverband stellte den Forschenden dafür verschiedene Videosequenzen der Fussball-WM 2022 in Katar zur Verfügung, aufgenommen mit verschiedenen Kameras (stationäre und bewegliche Kameras). Dazu weitere Daten wie zum Beispiel die exakten Spielfeld-Masse der einzelnen Stadien.

Drei Jahre lang beschäftigte die Aufgabe die ETH-Forschenden – in der schnellen KI-Welt eine Ewigkeit. "Zu Beginn rechneten wir damit, rasch einen exakten Datensatz zu haben", erinnert sich Jiang. "Wir hatten damals bereits ein System, das Posen und Bewegungen digital präzise darstellen konnte und gingen davon aus, dass sich dieses einfach auf die WM-Aufzeichnungen übertragen liesse."

Rasch stellten sie fest, dass es ein grosser Unterschied ist, ob man nur einzelne Sequenzen digitalisiert oder ob man das System auf einen grösseren Datensatz anwendet. Zu den technischen Herausforderungen zählten zum Beispiel, dass sich Spieler gegenseitig verdecken, Bewegungsunschärfe oder Probleme bei der Kamerakalibrierung. Auch Verzerrungen der verschiedenen Kameras oder der Zoom der Übertragungskamera stellten sich als knifflig heraus.

Linien müssen perfekt passen

Um sicherzustellen, dass sich der echte und der digitale Spieler am Schluss exakt überlagern, mussten die Forschenden zuerst die Videoaufnahmen der verschiedenen statischen Kameras eines Stadions – mit unterschiedlichen Blickwinkeln – kalibrieren und aufeinander abgleichen. Durch die Kalibrierung werden die spezifischen Eigenschaften von jeder Kamera, wie Brennweite oder Sensorgrösse, genau ermittelt und die Kamera so eingestellt, dass sie die Realität so genau wie möglich erfasst. Denn jede Kamera hat durch ihre Optik gewisse Verzerrungen, etwa bei der Darstellung von geraden Linien.

Dann werden digitale Referenzlinien als visuelle Hilfe über das Kamerabild gelegt. Diese Überlagerung zeigt, wie gut die Kalibrierung funktioniert oder ob es noch Verzerrungen gibt. "Wenn die Kalibrierung stimmt, dann überlagert sich die digitale Feldlinie perfekt mit der echten Feldlinie – aus allen Blickwinkeln", sagt Jiang.

Anhand der perfekt aufeinander abgestimmten Parameter der statischen Kameras kann der Computer dann die Posen und die Bewegungsbahnen der Spieler schätzen. Durch das in der Computer Vision gängige SMPL-Modell wird der digitale Körper so dargestellt, dass er möglichst nah am menschlichen Original ist.

Mit diesen Daten wird nun die bewegliche Übertragungskamera "gefüttert". Auch sie wird nun kalibriert, zum Beispiel in alle Richtungen bewegt, und es wird hinein- und herausgezoomt. Stimmt die Überlagerung der realen und der digitalen Daten, kann nun die genaue Position, die Bewegungsbahn sowie die Haltung der einzelnen Spieler auf dem Rasen dreidimensional digital dargestellt werden – und das mit nur einer Kamera.

Zoom brachte System an Grenzen

Anhand ihres Datensatzes konnten die ETH-Forschenden nun detailliert vergleichen, ob eine einzelne Kamera mit der bisherigen MPE-Technologie eine Abseitsposition gut genug erkennt oder nicht. Die Computerwissenschaftler und -wissenschaftlerinnen kamen in ihrer Studie, die an der European Conference on Computer Vision in Mailand vorgestellt worden ist, zum Schluss, dass die vorhandenen Methoden mit diesem neuen Datensatz überfordert sind, und sie zeigten mögliche neue Forschungsrichtungen auf.

Zwar können Posenschätzungen mit nur einer Kamera Körperstellungen und -bewegungen auf kleinem Raum sehr genau ermitteln, selbst bei einer grossen Kamera-Brennweite oder bei einem grossen Abstand zwischen Mensch und Kamera. Auch bei einzelnen Bewegungsabläufen schneiden MPE-Modelle relativ gut ab, haben aber Schwierigkeiten, die relativen Positionen mehrerer Spieler im selben Raum zu bestimmen. Besonders anspruchsvoll war das Hinein- und Hinauszoomen mit der Kamera. "Das bestätigte uns, dass es für ein funktionierendes und stabiles System noch viel Forschung braucht", so Jiang.

Daten für Wettbewerb veröffentlicht

Mit dem WorldPose-Datensatz sollen nun weitere Wissenschaftlerinnen und Wissenschaftler ihre Systeme trainieren und Algorithmen entwickeln, damit künftig eine genaue KI-Analyse mit einer einzigen beweglichen Kamera möglich wird. Dazu hat die Fifa einen Innovation Challenge lanciert. Neben dem Datensatz der ETH stellt die Fifa für diesen internationalen Forschungswettbewerb Videosequenzen von Fussballspielen zur Verfügung, aber dieses Mal einzig und allein aus der Übertragungskamera.

"Indem wir die Daten mit anderen teilen, könnte dies die Forschung in diesem Bereich beschleunigen", sagt ETH-Doktorand Jiang. "Wenn Modelle, die mit einer einzigen Kamera präzise analysieren, dereinst von ähnlicher Qualität sind wie unser Datensatz, wird die Technologie breit nutzbar sein."

Bisher haben sich bereits mehr als 150 Forscherinnen und Forscher aus der ganzen Welt auf den Wettbewerbsaufruf gemeldet. Auch die ETH trainiert ihre Systeme weiter. Jiang: "Wir werden am Datensatz weiterarbeiten und selbst weitere Modelle entwickeln."

 

Dieser Beitrag erschien zuerst bei der ETH Zürich.

Webcode
vcsF2E3R