★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 12. Mai 2026
1405 Artikel, 70 relevant
KI-Tagesüberblick 2026-05-12
### Highlights
1. Nautilus Compass: Persona-Drift-Erkennung für produktive LLM-Agenten — Anthropic und OpenAI präsentieren ein Black-Box-System zur Erkennung von Verhaltensabweichungen bei Coding-Agenten in langen Sessions. Das Tool funktioniert mit geschlossenen APIs (Claude, GPT-4) und behebt das Problem des "Vergessens" von Nutzervorgaben ohne Zugriff auf Modellgewichte. [arXiv:2605.09863](https://arxiv.org/abs/2605.09863)
2. Forschung-Level-Mathematik-Benchmark "Soohak" veröffentlicht — Nach IMO-Gold-Medaillen durch frontier LLMs entsteht ein neuer Benchmark für research-level mathematische Probleme, der die Fähigkeit zur Wissenserweiterung statt nur Schrittlogik misst. [arXiv:2605.09063](https://arxiv.org/abs/2605.09063)
3. OpenAI startet "Daybreak"-Initiative für Sicherheitslücken-Erkennung — OpenAI antwortet auf Anthropics Mythos-Sicherheitsforschung mit eigenem Programm zur proaktiven Vulnerabilitätserkennung mittels Codex Security AI. [The Verge](https://www.theverge.com/ai-artificial-intelligence/928342/openai-daybreak-security-ai)
4. Recursive Language Models für extrem lange Prompts — LLMs können nun Eingaben bis zu 100x länger verarbeiten durch selbstrekursives Zerlegen und Aufrufen über Prompt-Snippets. [arXiv:2512.24601](https://arxiv.org/abs/2512.24601)
5. AgentHER: Failed Trajectories für Agenten-Training recyceln — Neuer Ansatz mit Hindsight Experience Replay macht fehlgeschlagene Agent-Pfade nutzbar, da diese oft für andere Ziele korrekt sind. Besonders relevant bei Erfolgsquoten von nur 14-55%. [arXiv:2603.21357](https://arxiv.org/abs/2603.21357)
### Forschung
- Beyond Accuracy: Framework zur Evaluierung von Strategien-Vielfalt statt nur Genauigkeit bei mathematischem Reasoning mit dual-AI-Annotation. [arXiv:2605.09292](https://arxiv.org/abs/2605.09292)
- MathConstraint: Adaptive Benchmark für kombinatorisches Reasoning mittels Constraint-Satisfaction-Problemen mit Solver-basierter Verifizierung. [arXiv:2605.08498](https://arxiv.org/abs/2605.08498)
- GUARD: Guideline-Compliance-Test durch adaptive Rollenspiele und Jailbreak-Diagnostik für ethische LLM-Bewertung. [arXiv:2508.20325](https://arxiv.org/abs/2508.20325)
- Process vs. Output: Kognitionswissenschaftlicher Ansatz zur Mensch-Maschine-Unterscheidung basierend auf Problemlösungsprozess statt nur Output. [arXiv:2605.06524](https://arxiv.org/abs/2605.06524)
- CrackMeBench: Benchmark für Binary-Reverse-Engineering durch Agenten ohne Quellcode. [arXiv:2605.10597](https://arxiv.org/abs/2605.10597)
- Faithful Autoformalization: Roundtrip-Verifizierung zur Überprüfung treuer Formalisierung natürlichsprachlicher Aussagen. [arXiv:2604.25031](https://arxiv.org/abs/2604.25031)
### Tool & Infrastruktur
- Metal-Sci Benchmark: 10-Task-Benchmark für wissenschaftliche Apple-Silicon-Kernel-Optimierung mit automatisierter Kernel-Suche. [arXiv:2605.09708](https://arxiv.org/abs/2605.09708)
- Continual Harness: Online-Lernrahmen für self-improving embodied Agents — Gemini schaffte als erstes KI-System Pokémon Blue/Yellow/Crystal im Hard-Mode fehlerfrei. [arXiv:2605.09998](https://arxiv.org/abs/2605.09998)
- MemPrivacy: Datenschutz-erhaltende Speicher-Verwaltung für Edge-Cloud-Agenten mit semantischer Utility-Erhaltung. [arXiv:2605.09530](https://arxiv.org/abs/2605.09530)
### Business & Anwendungen
- Fashion Florence: Fine-tuned Vision-Language-Modell für strukturierte Mode-Attributs-Extraktion aus Bildern (JSON-Output). [arXiv:2605.09827](https://arxiv.org/abs/2605.09827)
- ConFit v3: Resume-Job-Matching mit LLM-basiertem Re-Ranking für bessere Kontrollierbarkeit und Erklärbarkeit. [arXiv:2605.09760](https://arxiv.org/abs/2605.09760)
### Monitoring & Qualitätssicherung
- AgentForesight: Online-Auditing zur frühen Fehlererkennung in Multi-Agent-Systemen, bevor Fehler kaskadieren. [arXiv:2605.08715](https://arxiv.org/abs/2605.08715)
- Byte-Exact Deduplication in RAG: Empirische Analyse von Chunk-Deduplizierung zeigt kontextabhängige Reduktion (0,16% akademisch, 80% Konversation). [arXiv:2605.09611](https://arxiv.org/abs/2605.09611)
- Überconfidence bei visuellen Details: APL-Methode gegen Prompt-Insensitivität bei Vision-LLMs (z.B. 5-beiniger Hund). [arXiv:2510.09887](https://arxiv.org/abs/2510.09887)
Bereiche