EPFL tüftelt mit Apple am perfekten multimodalen KI-Modell

News

Die EPFL hat 4M enthüllt, ein neuronales Netz, das die derzeitigen Grenzen der multimodalen künstlichen Intelligenz überwinden soll. Dieses Foundation-Model Training Framework soll verschiedene Arten von Daten vereinen, von Text bis hin zu biologischen Signalen.

Forscher der EPFL versuchen, die physische Realität zu modellieren, indem sie verschiedene Modalitäten zusammenfügen. Dieses Bild zeigt Orangen, die durch das Prisma mehrerer Modalitäten betrachtet werden. (Quelle: EPFL/Visual Intelligence and Learning Laboratory - CC-BY-SA 4.0)

Im Bereich der generativen KI hat die EPFL einen Trainingsrahmen zur Entwicklung multimodaler Stiftungsmodelle enthüllt. Laut einer Mitteilung der Institution wird die Zukunft der generativen künstlichen Intelligenz auf multimodalen Modellen basieren, die sich nicht auf die Analyse von Texten beschränken, sondern auch andere Datentypen wie Bilder, Videos, Töne oder Daten aus verschiedenen Bereichen wie biologische oder atmosphärische Informationen einbeziehen werden.

Die KI-Giganten OpenAI und Google haben übrigens kürzlich mit der Einführung multimodaler APIs einen wichtigen Schritt nach vorne gemacht. Diese Lösungen ermöglichen bidirektionale Interaktionen in Echtzeit und verarbeiten gleichzeitig Text-, Audio- und Video-Eingaben, wobei die Antworten in Form von Text oder Audio generiert werden.

Wie die EPFL erklärt, stellt das Trainieren von Modellen, die mehrere Modalitäten verarbeiten können, jedoch eine große Herausforderung dar. Die deutlichen Unterschiede zwischen den Datentypen machen das Training schwierig. Und einige Modalitäten werden oft vernachlässigt, was die Qualität und Genauigkeit des Gesamtmodells gefährdet.

Ein neuronales Netz mit dem Namen 4M

Um diese Einschränkungen zu überwinden, hat ein Team des Labors für visuelle Intelligenz und Lernen (VILAB) innerhalb der Fakultät für Informatik und Kommunikation (IC) der EPFL mit der Unterstützung von Apple (dessen Leiter der KI-Forschung gerade zum Professor an der EPFL ernannt wurde) 4M entwickelt. Ziel dieses Projekts ist es, ein neuronales Netz zu schaffen, das eine breite Palette von Aufgaben und Modalitäten bewältigen kann.

"Wenn wir zur multimodalen Modellierung übergehen, müssen wir uns nicht auf Sprache beschränken. Wir bringen andere Modalitäten ein, darunter auch Sensoren. Beispielsweise können wir über eine Orange kommunizieren, indem wir das Wort "Orange" verwenden, wie in Sprachmodellen, aber auch über eine Sammlung von Pixeln, die angeben, wie die Orange aussieht, oder über den Tastsinn, der das Gefühl erfasst, eine Orange zu berühren. Wenn man verschiedene Modalitäten zusammenfügt, erhält man eine vollständigere Verkapselung der physischen Realität, die wir zu modellieren versuchen", erklärt Amir Zamir, Leiter von VILAB.

Die Modelle schummeln immer noch

Dieser Trainingsrahmen hat jedoch noch keine wirkliche Vereinheitlichung der Modalitäten erreicht. Amir Zamir meint: "Die Modelle schummeln und schaffen einen kleinen Satz unabhängiger Modelle. Ein Satz von Parametern löst ein Problem, ein anderer Satz von Parametern löst ein anderes Problem, und gemeinsam scheinen sie das Gesamtproblem zu lösen. Aber sie vereinen ihr Wissen nicht wirklich auf eine Art und Weise, die eine kompakte gemeinsame Darstellung der Umwelt ermöglicht, die ein gutes Portal zur Welt darstellen würde".

Das VILAB-Team arbeitet weiter an der Verfeinerung von 4M, um eine robuste Fähigkeit zur Vereinheitlichung der Modalitäten zu erreichen. Ziel ist es, eine generische Open-Source-Architektur zu entwickeln, die es Forschern und Experten aus anderen Disziplinen ermöglicht, das Modell an ihre spezifischen Bedürfnisse anzupassen.

Artikel teilen: