Alle wichtigen KI-Benchmarks auf einen Blick: Arena Leaderboard, SWE-bench, MMLU-Pro, HumanEval, Terminal-Bench. Claude Opus 4.6 fuehrt die Arena, Mythos zerstoert SWE-bench mit 93.9%, chinesische Modelle dominieren MMLU-Pro. Plus: Open Source vs. Kommerziell — die Luecke ist fast geschlossen.
Crowdsourced Elo-Rating, taeglich aktualisiert. Menschen bewerten blind welche Antwort besser ist.
1. Claude Opus 4.6 Thinking (Anthropic) — Elo 1504
2. Claude Opus 4.6 (Anthropic) — Elo 1500
3. Gemini 3.1 Pro Preview (Google) — Elo 1493
4. Grok 4.20 Beta1 (xAI) — Elo 1491
5. Gemini 3 Pro (Google) — Elo 1486
6. GPT-5.4 High (OpenAI) — Elo 1484
7. Grok 4.20 Beta Reasoning (xAI) — Elo 1483
8. GPT-5.2 Chat Latest (OpenAI) — Elo 1480
9. Gemini 3 Flash (Google) — Elo 1474
10. Claude Opus 4.5 Thinking (Anthropic) — Elo 1474
Coding-Arena: Claude dominiert komplett — Opus 4.6 (1549), Opus 4.6 Thinking (1545), Sonnet 4.6 (1523).
Quelle: lmarena.ai
Echte GitHub-Issues durch Code-Patches loesen. Der haerteste Coding-Benchmark.
1. Claude Mythos Preview (Anthropic) — 93.9% (!!)
2. Claude Opus 4.5 — 80.9%
3. Claude Opus 4.6 — 80.8%
4. Gemini 3.1 Pro (Google) — 80.6%
5. MiniMax M2.5 — 80.2%
6. GPT-5.2 (OpenAI) — 80.0%
7. Claude Sonnet 4.6 — 79.6%
8. Qwen3.6 Plus (Alibaba) — 78.8%
9. MiMo-V2-Pro (Xiaomi) — 78.0%
10. Gemini 3 Flash (Google) — 78.0%
Mythos ist ein Ausreisser — 13 Prozentpunkte vor dem Zweitplatzierten. Das ist das geheime Modell das nicht veroeffentlicht wird.
Quelle: swebench.com
12.000 Graduate-Level Fragen aus allen Wissensgebieten.
1. Gemini 3 Pro Preview (Google) — 89.8%
2. Claude Opus 4.5 Reasoning (Anthropic) — 89.5%
3. Qwen3.6 Plus (Alibaba) — 88.5%
4. MiniMax M2.1 — 88.0%
5. Qwen3.5-397B (Alibaba) — 87.8%
6. Kimi K2.5 (Moonshot AI) — 87.1%
7. ERNIE 5.0 (Baidu) — 87.0%
8. Qwen3.5-122B (Alibaba) — 86.7%
9. Qwen3.5-27B (Alibaba) — 86.1%
10. Gemma 4 31B (Google) — 85.2%
Auffaellig: Chinesische Modelle (Qwen, Kimi, ERNIE) dominieren die Raenge 3-9. Open Source schliesst die Luecke.
Quelle: artificialanalysis.ai
89 echte Terminal-Aufgaben: Software Engineering, Sysadmin, ML. Bewertet Agent + Modell zusammen.
1. ForgeCode + GPT-5.4 — 81.8%
2. ForgeCode + Claude Opus 4.6 — 81.8%
3. TongAgents + Gemini 3.1 Pro — 80.2%
4. SageAgent + GPT-5.3-Codex — 78.4%
5. ForgeCode + Gemini 3.1 Pro — 78.4%
6. Droid (Factory) + GPT-5.3-Codex — 77.3%
7. Capy + Claude Opus 4.6 — 75.3%
8. Simple Codex + GPT-5.3-Codex — 75.1%
Wichtigste Erkenntnis: Das Agent-Framework (ForgeCode, TongAgents) ist fast so wichtig wie das Modell. ForgeCode erreicht mit 3 verschiedenen Modellen jeweils Top-5.
Quelle: tbench.ai
Kommerzielle Frontier-Modelle (Closed Source):
- Claude Opus 4.6 (Anthropic) — Arena-Fuehrender
- GPT-5.4 (OpenAI)
- Gemini 3.1 Pro (Google)
- Grok 4.20 (xAI)
Open Source / Open Weight:
- DeepSeek-V3.2 / R1 (MIT-Lizenz) — Frontier-Reasoning fuer $5.9M Trainingskosten
- Qwen3.5/3.6 (Alibaba, Apache 2.0) — Dominiert MMLU-Pro
- Llama 4 Scout/Maverick (Meta) — 10M Token Kontext
- Mistral Large 3 (Apache 2.0) — 123B Parameter, Europa
- Gemma 4 31B (Google, Open Weight) — 85.2% MMLU-Pro
Kernaussage: Die Luecke ist weitgehend geschlossen. DeepSeek R1 bewies dass Frontier-Reasoning nicht Hunderte Millionen Dollar Trainingsbudget braucht. Fuer die meisten Aufgaben reicht Open Source. Die absolute Spitze (Arena Elo 1500+) bleibt aber kommerziell.
Fuer Unternehmen: Open Source lokal fuer sensible Daten (DSGVO). Kommerziell (Claude, GPT) fuer maximale Qualitaet bei unkritischen Aufgaben.
Chatbot Arena (Live-Ranking): https://arena.ai/leaderboard
SWE-bench Verified: https://www.swebench.com/
MMLU-Pro: https://artificialanalysis.ai/evaluations/mmlu-pro
HumanEval: https://llm-stats.com/benchmarks/humaneval
Terminal-Bench 2.0: https://www.tbench.ai/leaderboard/terminal-bench/2.0
Open Source Vergleich: https://till-freitag.com/en/blog/open-source-llm-comparison
Bild-Generierung: https://www.comparegen.ai/blog/best-ai-image-generators-2026
Video-Generierung: https://pxz.ai/blog/veo-31-vs-top-ai-video-generators-2026