Claude 3.7 Sonnet, GPT-4.5 und Gemini 2.5 Pro erschienen Anfang 2025 innerhalb weniger Wochen. Alle drei führen Benchmarks an — nur auf unterschiedlichen. Warum das kein Zufall ist, und was es für Teams bedeutet, die KI einsetzen.
Eine Welle, drei Modelle
Anfang 2025 erlebte die KI-Welt etwas, das sich anfühlte wie eine Choreografie: Am 24. Februar veröffentlichte Anthropic Claude 3.7 Sonnet — das erste Modell, das das Unternehmen als "hybrides Reasoning-Modell" bezeichnete. Es kann wahlweise als schneller Sprachassistent oder als eingebaute Denkmaschine mit sichtbaren Reasoning-Schritten laufen, deren Länge per API steuerbar ist. Drei Tage später, am 27. Februar, folgte OpenAI mit GPT-4.5, dem nach eigenen Angaben "größten und kenntnisreichsten Modell aller Zeiten." Wenige Wochen danach brachte Google DeepMind Gemini 2.5 Pro — das auf mehreren Benchmarks sofort die Führung übernahm und die vorangegangenen Releases wie einen Aufwärmlauf aussehen ließ.
Drei Spitzenmodelle, drei Labore, kaum drei Wochen. Und drei Pressemitteilungen, die alle dasselbe behaupteten: Wir führen.
Das Kuriose daran: Alle hatten recht.
Klingt interessant?
Was die Zahlen wirklich zeigen
SWE-bench Verified gilt heute als relevantester Test für echte Softwareentwicklung. Keine synthetischen Coding-Examina — sondern echte GitHub-Issues aus produktiven Open-Source-Repositories, die das Modell eigenständig lokalisieren und beheben muss. Auf diesem Benchmark führt Claude 3.7 Sonnet mit 70,3 Prozent gelöster Issues. Gemini 2.5 Pro folgt mit 63,8 Prozent. GPT-4.5 kommt auf 38 Prozent.
Wer dagegen auf wissenschaftliches Reasoning schaut, sieht eine andere Rangliste. Beim GPQA Diamond — Graduate-Level-Fragen aus Physik, Chemie und Biologie — erzielt Gemini 2.5 Pro 84 Prozent, Claude 3.7 Sonnet 78 Prozent, GPT-4.5 71 Prozent. Beim AIME 2025, einer Reihe mathematischer Wettbewerbsaufgaben, erreicht Gemini 86,7 Prozent; Claude 3.7 kommt auf 49,5 Prozent.
GPT-4.5 findet seine Stärke woanders: bei Faktentreue und konversationeller Natürlichkeit. Auf SimpleQA, dem Benchmark für Präzision bei direkten Faktenfragen, erzielt es 62,5 Prozent — klar vor seinen Konkurrenten. Gleichzeitig sank die Halluzinationsrate gegenüber GPT-4o von 61,8 auf 37,1 Prozent. Der Preis für diese Qualität ist erheblich: 75 Dollar pro Million Eingabe-Tokens, gegenüber 3 Dollar bei Claude 3.7 Sonnet. Ein Faktor von 25.
Das ergibt kein Bild eines klaren Siegers. Es ergibt das Bild einer fragmentierten Spitze, auf der jedes Modell in seinem Bereich dominiert.
Strategie statt Zufall
Diese Fragmentierung ist kein Übergangsphänomen. Sie ist das Ergebnis bewusster Entscheidungen.
Anthropic hat Claude 3.7 Sonnet auf agentenbasierte Softwareentwicklung und komplexes Instruction-Following ausgerichtet. Cursor, Cognition und Replit berichteten beim Launch unabhängig voneinander, dass das Modell bei der Arbeit mit großen, realen Codebases deutlich besser abschneidet als seine Vorgänger. Google hat Gemini 2.5 Pro auf wissenschaftliches Reasoning und multimodale Verarbeitung optimiert — ein Kontextfenster von einer Million Tokens erlaubt es, ganze Codebases oder wissenschaftliche Dissertationen in einem einzigen Prompt zu verarbeiten. OpenAI hat GPT-4.5 nach eigenen Angaben bewusst als letztes Modell ohne eingebautes Reasoning konzipiert, um durch skaliertes unüberwachtes Lernen Faktenpräzision und konversationelle Qualität zu verbessern.
Das sind strategische Divergenzen, keine Lücken, die bald geschlossen werden. Für absehbare Zeit hängt das beste Modell für einen bestimmten Anwendungsfall stark davon ab, was man tatsächlich damit macht.
Ein Entwicklerteam, das Code-Reviews automatisiert, ist mit Claude 3.7 Sonnet derzeit am besten bedient. Ein Team, das wissenschaftliche Literatur auswertet oder komplexe Anforderungsdokumente analysiert, profitiert von Geminis Reasoning-Stärke. Für Anwendungen, bei denen Faktenpräzision über technischer Tiefe steht — Kundenkommunikation, Dokumentation, Support — lohnt sich GPT-4.5 trotz des höheren Preises. Die Frage ist also nicht, welches Modell das beste ist. Die Frage ist: Das beste wofür?
Das eigentliche Risiko ist der Lock-in
Zwischen Mitte 2024 und Anfang 2025 verbesserten sich die SWE-bench-Scores der führenden Modelle um mehr als zwanzig Prozentpunkte. Die Kurve verlangsamt sich nicht erkennbar. Das Modell, das heute auf einem Benchmark führt, wird in sechs Monaten auf anderen schlechter dastehen — und neue Akteure wie DeepSeek V3 oder Llama 4 verschieben zusätzlich die Grenzen dessen, was als Frontier gilt.
Für Unternehmen, die sich heute für eine KI-Entwicklungsplattform entscheiden, ergibt sich daraus ein ernstes strukturelles Problem. Wer sich an einen einzelnen Anbieter bindet — durch fest eincodierte API-Aufrufe, proprietäre Frameworks oder schlicht interne Gewohnheit — wird in absehbarer Zeit Argumente dafür suchen, nicht zu wechseln, obwohl das bessere Modell woanders steht. Teams, die 2023 früh auf GPT-4 aufgebaut haben, kennen dieses Dilemma bereits: Die Migrationsprojekte, die sie heute durchführen, waren bei der ursprünglichen Architekturentscheidung nicht eingeplant.
Der sinnvollere Ansatz besteht darin, Tasks zu routen statt sich auf Modelle festzulegen. Einfache, repetitive Aufgaben an schnelle, günstige Modelle. Komplexe Reasoning-Aufgaben an das aktuell stärkste verfügbare Modell. Und das Routing automatisch anpassen, sobald ein neues Modell besser abschneidet.
Das ist der Gedanke hinter nopex. Statt Teams an einen Anbieter zu binden, wählt nopex für jede Aufgabe das geeignetste Modell — und aktualisiert diese Zuordnung, wenn sich die Frontier verschiebt. Der Benchmark-Krieg da draußen ist real. Er ist auch das falsche Entscheidungskriterium für Ihre Infrastruktur.


