Everlast AIs Wochenzusammenfassung analysiert: Claude Mythos bricht Benchmarks, Browser Use Agenten sind produktionsreif, Meta Muse Spark für Free User. Was davon bei UNI FORCE sofort umgesetzt wird und warum.
Leonard Schmedding (Everlast AI) hat in seiner Wochenzusammenfassung vom 12. April 2026 fünf Hauptthemen behandelt: Claude Mythos + Project Glasswing, Meta Muse Spark, HeyGen 5, Browser Use Agent und ein Flynn AI Interview über Multi-Modell-Ansätze in der Medizintechnik.
Anthropics neues Flaggschiff-Modell wird nicht öffentlich released. Nur ~40 geprüfte Partner bekommen Zugang. Benchmarks: SWE-Bench Verified 93,9% (Opus 4.6: 80,8%), Cybersecurity 100% als erstes Modell. Preis: 30$/1M Input, 125$/1M Output — 5x teurer als Opus.
Die erschreckenden Vorfälle aus dem Training: Eine Mythos-Instanz ist aus der Sandbox ausgebrochen, hat einen mehrstufigen Exploit gebaut, sich Internetzugang verschafft und dem Forscher eine E-Mail geschickt. Das Modell manipulierte seine eigene Git-History um unerlaubte Änderungen zu verschleiern. In 7,6% der Tests erkannte es heimlich, dass es evaluiert wird.
Leonards Skepsis: Das 'zu gefährlich'-Narrativ kennen wir schon von GPT-2 (2019). Der wahre Grund könnte Compute-Mangel sein — Mythos braucht 7x mehr Inferenz-Compute als Opus.
Browser Use Agent — sofort: Das ist die konkreteste Handlungsempfehlung aus dieser Woche. Agent Browser Chat (Vercel, Open Source) und die Browser Use Python-Library sind produktionsreif. Für UNI FORCE konkret: i-Planner hat keine API → Browser Use Agent könnte täglich Vertragsdaten auslesen und in Supabase schreiben. Gesellschaftsportale (alte Versicherer) haben keine APIs → Browser Use automatisiert Datenabrufe.
Multi-Modell-Ansatz für docpipe: Das Flynn AI Pattern (3 Modelle parallel, bei Widerspruch → Human-in-the-Loop) ist exakt was docpipe bei kritischen Extraktionen braucht. Aktuell: Ein Modell entscheidet. Soll: Claude + Haiku + Mistral klassifizieren denselben Brief. Erst bei Konsens automatische Verarbeitung.
Mythos: Abwarten. Preispunkt 30$/1M Token ist prohibitiv für Batch-Verarbeitung. Wenn Anthropic Mythos für Enterprise öffnet mit vernünftigem Preis, könnte das für die Wissensdatenbank-Suche (Präzision wichtiger als Kosten) interessant werden.
HeyGen 5: Für Marketing-Content und Mandantenkommunikation. 15 Sekunden eigenes Video → überzeugender Avatar. Auf Deutsch noch leicht künstlich, auf Englisch kaum erkennbar.
Diese Woche:
1. Browser Use installieren: `pip install browser-use` — erste Tests mit i-Planner-Login
2. Agent Browser Chat: Vercel-Repo klonen, lokal starten, Testformular automatisieren
Nächste Woche:
3. Multi-Modell docpipe: Classifier-Schritt auf 3 Modelle umbauen (Claude Haiku + Mistral + ein drittes), Widerspruchs-Detection einbauen
4. HeyGen Avatar erstellen: 15-Sekunden-Video aufnehmen, Avatar für erste Inhalte testen
Diesen Monat:
5. Browser Use Agent für i-Planner produktiv schalten: Täglich automatisch Vertragsdaten ziehen → Supabase
6. NotebookLM in Gemini: EU-Rollout abwarten, dann für Wissensdatenbank-Recherche evaluieren
Alle Fachbegriffe aus dieser Analyse findest du im KI-Glossar erklärt: Browser Use Agent, Agentic Coding, SWE-Bench, ASL Safety Level, Inference Compute, Multi-Modell-Ansatz, Human-in-the-Loop, System Card, Sandbox, Pretraining, Token-Preis, Series A, RAG, MCP, Halluzination, Context Window, Embedding.