Wo GPT-4, Gemini, Mistral & Co. punkten – und wo nicht
Viele Unternehmen bieten heutzutage grosse Sprachmodelle an. Wer eine KI sucht, sollte sich das passende Modell aussuchen. Marktforscher Forrester stellt einen Vergleich an und lobt die Transparenz bei IBM, die geschäftsfreundlichen Modelle von Cohere sowie OpenAIs umfangreiche Trainingsdaten.
AWS, IBM, Google, OpenAI … Die Anzahl der Unternehmen, die mit eigenen grossen Sprachmodellen auf dem KI-Markt mitmischen, wächst. Doch wer hat in puncto Leistung tatsächlich die Nase vorn? Diese Frage versucht Forrester zu beantworten. Das US-Marktforschungsunternehmen bewertete 10 der wichtigsten kommerziellen Anbieter grosser Sprachmodelle (Large Language Models oder LLMs). Die vollständige Studie ist kostenpflichtig. Das Portal "CRN" hat die wichtigsten Kennzahlen und Erkenntnisse zusammengestellt.
Bei KI-Fragen nicht die KI fragen
In einem Blogbeitrag zur Untersuchung hält Forrester fest, dass sich die verschiedenen KI-Modelle durch weit mehr unterscheiden als nur durch die Anzahl ihrer Parameter. Bei der Wahl eines für einen bestimmten Zweck geeigneten LLMs spielten viele weitere Faktoren eine Rolle. Forrester bewertete in seiner Untersuchung deswegen 21 Aspekte in den Kategorien Angebot, Strategie und Marktpräsenz.
Zusätzlich zu den in der Studie berücksichtigten Modellen gebe es noch jede Menge Community-Ansätze sowie auf bestimmte Anwendungsgebiete trainierte KI-Modelle, sodass sich die Wahl weiter verkompliziere. Die Analysten rechnen damit, dass in vielen Fällen ein einzelnes Sprachmodell nicht genügen dürfte. Und schliesslich fügt Forrester noch hinzu: "Was auch immer Sie tun, bitten Sie die KI nicht, Ihnen bei der Auswahl zu helfen. Sie wird nicht unvoreingenommen sein!"
Nur einmal gibt’s 5 Punkte für Marktpräsenz
In der "CRN"-Übersicht sind die Punkte für Angebot, Strategie und Marktpräsenz der 10 KI-Modelle und ihrer Anbieter aufgeführt. Beim Angebot ("AI Offering Score") erreicht Google mit seinem KI-Assistenten Gemini die höchste Bewertung mit 4,82 Punkten. Dies liege an "seiner Marktdifferenzierung in Bezug auf Multimodalität, Kontextlänge und Interkonnektivität mit Google Cloud", heisst es im Bericht. Mit 4,66 erreicht Gemini auch für "Strategy" die höchste Bewertung. Dagegen vergibt Forrester bezüglich "Market Presence" nur 2 von 5 möglichen Punkten an Gemini.
Überhaupt scheint es bei den LLMs in Sachen Marktpräsenz generell noch Luft nach Oben zu geben. 4 Modelle (IBM Granite, AWS Amazon Bedrock, Microsoft Phi und Mistral AI) erhalten nur einen Punkt. Google und Cohere Command erhalten 2 Punkte; und Anthropic Claude, Nvidia Nemotron und Databricks DBRX bewerten die Analysten mit 3 von 5 Punkten. Nur OpenAI mit GPT-4 schreibt Forrester 5 Punkte zu.
Alle haben ihre Stärke
In allen drei Hauptkategorien die wenigsten Punkte erhält Mistral AI: Das Angebot bewertet Forrester mit 1,78 und die Strategie mit 1,32 Punkten. "Das Unternehmen muss schnell den Vertrieb, das Marketing, die Entwicklung von Plattform-Tools und das Partnergeschäft ausbauen, um mit der wachsenden Zahl von Anbietern auf diesem Markt konkurrieren zu können", zitiert "CRN" aus der Studie.
Doch wie bereits erwähnt, lohnt es sich, bei KI-Modellen genau hinzusehen. Für jeden Anbieter nennt Forrester auch mehrere Stärken. Darunter folgende.
- Google Gemini: Multimodalität, Kontextlänge und Interkonnektivität mit Google Cloud.
- Databricks DBRX: hat ein eigenes Modell, ermöglicht aber auch die Einbindung selbst trainierter Modelle
- Nvidia Nemotron: hat sehr starke mehrsprachige Fähigkeiten und ermöglicht die schnelle, effiziente Erstellung neuer Modelle.
- IBM Granite: bietet einen der stabilsten und transparentesten Einblicke in die zugrundeliegenden Trainingsdaten.
- OpenAI GPT-4: punktet mit Kernfunktionen des Modells wie Codegenerierung, Mehrsprachigkeit, Kontextfenster und dem Umfang der Trainingsdaten.
- AWS Amazon Bedrock: hat starke Titan-Modelle und ermöglicht es, eigene Modelle anzubieten.
- Microsoft Phi: setzt nicht nur auf reale, sondern auch auf synthetische Trainingsdaten und ermöglicht so das Training mit einem kleineren Datensatz.
- Cohere Command: bietet geschäftsfreundliche Modelle und unterstützt Datenpipelines für RAG-basierte Wissensabfrage-Architekturen.
- Anthropic Claude: passt seine Modelle den Bedürfnissen eines Unternehmens an.
- Mistral AI: starke Kernsprachfähigkeiten, die dank eines "Mixture of Experts"-Ansatzes eine höhere Genauigkeit bei geringerem Verbrauch von Rechenressourcen erreichen.
KI ist eines der Themen, das aktuell die Schweizer IT-Branche beschäftigt. Welche weiteren Trends und Challenges die Branche prägen, erfahren Sie hier.