Googles neues Gemini-KI-Modell dominiert Benchmarks

Google hat zum ersten Mal den Spitzenplatz auf der Rangliste der Chatbot Arena erobert. Mit dem Namen Gemini 1.5 Pro gibt es einen neuen Spitzenreiter in der Welt der Benchmarks für generative künstliche Intelligenz.

Der bisherige Champion, OpenAI’s ChatGPT-4o, wurde schließlich am 1. August überholt, als Google still und heimlich eine experimentelle Version seines neuesten Modells startete.

Das neueste Update von Gemini kam ohne viel Aufsehen und ist derzeit als experimentell gekennzeichnet. Dennoch erregte es schnell die Aufmerksamkeit der KI-Gemeinschaft in den sozialen Medien, als Berichte eintrudelten, dass es in Benchmark-Tests seine Rivalen übertraf.

Benchmarks für künstliche Intelligenz

OpenAI’s ChatGPT war seit der Einführung von GPT-3 der Maßstab für generative KI. Sein neuestes Modell, GPT-4o, und sein engster Konkurrent, Anthropic’s Claude-3, haben in den meisten gängigen Benchmarks im letzten Jahr oder so über den meisten anderen Modellen regiert, mit wenig in der Art von Wettbewerb. Einer der beliebtesten Benchmarks ist der LMSYS Chatbot Arena. Er testet Modelle in einer Vielzahl von Aufgaben und vergibt eine Gesamtkompetenzpunktzahl. GPT-4o erhielt eine Punktzahl von 1.286, während Claude-3 eine respektable 1.271 erzielte.

Eine frühere Version von Gemini 1.5 Pro erzielte 1.261 Punkte. Aber die experimentelle Version (Gemini 1.5 Pro 0801), die am 1. August veröffentlicht wurde, erreichte beeindruckende 1.300 Punkte.

Dies deutet darauf hin, dass es insgesamt fähiger ist als seine Konkurrenten, aber Benchmarks sind nicht unbedingt eine genaue Darstellung dessen, was ein KI-Modell kann und nicht kann.

Begeisterung in der Gemeinschaft

Ohne tiefergehende Vergleiche verfügbar zu haben, treten wir in eine Ära ein, in der der Markt für KI-Chatbots genug gereift ist, um mehrere Optionen anzubieten. Letztendlich liegt es an den Endnutzern zu bestimmen, welches KI-Modell für sie am besten funktioniert.

Anekdotisch gab es eine Welle der Begeisterung über die neueste Version von Gemini, wobei Nutzer in den sozialen Medien es als „unglaublich gut“ bezeichneten. Ein Reddit-Nutzer ging sogar so weit zu schreiben, dass es „4o aus dem Wasser bläst“.

Es ist derzeit unklar, ob die experimentelle Version von Gemini 1.5 Pro zukünftig die Standardversion sein wird. Obwohl sie zum Zeitpunkt der Veröffentlichung dieses Artikels allgemein verfügbar bleibt, deutet die Tatsache, dass sie sich in einer Art früher Veröffentlichungs- oder Testphase befindet, darauf hin, dass es möglich ist, dass das Modell aus Gründen der Sicherheit oder Ausrichtung zurückgezogen oder geändert werden könnte.