Reinforcement Learning from AI Feedback

Meta bietet Ausblick auf sich selbst verbessernde KI-Modelle

Uhr
von Dylan Windhaber und yzu

Meta hat eine Reihe neuer KI-Modelle veröffentlicht. Dazu gehört ein "Self-Taught-Evaluator", der einen Weg zu weniger menschlicher Beteiligung an der KI-Entwicklung eröffnen könnte.

(Source: DeltaWorks, pixabay.com)
(Source: DeltaWorks, pixabay.com)

Meta Platforms hat mehrere neue KI-Modelle lanciert. Dazu gehöre unter anderem ein digitaler Assistent, welcher intelligent genug sei, eine Vielzahl von Aufgaben ohne menschliches Eingreifen zu erledigen, wie "Reuters" berichtet. Meta stütze sich bei dem Tool auf dieselbe "Gedankenketten-Technik", die auch bei den kürzlich veröffentlichten o1-Modellen von OpenAI verwendet worden sei. Die Technik bestehe in der Zerlegung komplexer Probleme in kleine, logische Schritte. Dieser Ansatz verbessert gemäss Mitteilung die Genauigkeit der Antworten auf schwierige Probleme in Wissenschaft, Codierung und Mathematik. Die Meta-Forscher sollen ausschliesslich KI-generierte Daten für das Trainieren des Bewertungsmodells genutzt haben, sodass bereits zu Beginn menschliche Eingaben vermieden werden konnten.

Dass KI zur zuverlässigen Bewertung anderer KI eingesetzt werden könne, zeige einen möglichen Weg zur Entwicklung autonomer KI-Agenten auf, welche aus ihren eigenen Fehler lernen können, so zwei Meta-Forscher gegenüber Reuters. Solche sich selbst verbessernden KI-Modelle hätten das Potenzial, teure und ineffiziente Verfahren, die als "Reinforcement Learning from Human Feedback" (Verstärkungslernen durch menschliches Feedback) bezeichnet werden, abzulösen. Demnach wäre die Eingabe menschlicher Kommentatoren mit speziellem Fachwissen überflüssig. "Wir hoffen, dass die KI in dem Masse, wie sie immer übermenschlicher wird, immer besser darin wird, ihre Arbeit zu überprüfen, sodass sie tatsächlich besser ist als der durchschnittliche Mensch", sagte Jason Weston, einer der Forscher gegenüber Reuters. 

Auch andere Unternehmen wie Google und Anthropic hätten Forschungsarbeiten zum Konzept "RLAIF" (Reinforcement Learning from AI Feedback) veröffentlicht. Jedoch werden diese laut Bericht im Gegensatz zu Metas KI-Modellen wahrscheinlich nicht zur öffentlichen Nutzung freigegeben. 

Weiter habe Meta ein Update des Bildidentifizierungsmodells "Segment Anything" veröffentlicht, einem KI-Tool zur Beschleunigung der LLM-Antwortgenerierungszeiten und Datensätze. Dieses könne zur Entdeckung neuer anorganischer Materialien verwendet werden. 


Anfang Oktober hat Meta zusammen mit Movie Gen ein neues KI-Modell vorgestellt, welches realistische Videos und Audio auf Basis von Texteingaben generieren kann. Mehr darüber erfahren Sie hier

Webcode
5RPLiAVt