★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 08. Mai 2026
816 Artikel, 27 relevant
KI-Tagesüberblick 2026-05-08
### Highlights
1. Prozess statt Output zur Mensch-Maschine-Unterscheidung — [Anthropic, OpenAI und Google Forschung](https://arxiv.org/abs/2605.06524) zeigt: Die Art, wie KI-Systeme zu Ergebnissen gelangen, ist aussagekräftiger als nur die Outputs selbst. Dies könnte traditionelle Turing-Test-Ansätze grundlegend verändern.
2. Agentenverhalten messbar machen — [Neue Bewertungsrahmen für agentic Systeme](https://arxiv.org/abs/2605.05739) ermöglichen detaillierte Verhaltensanalyse statt nur aggregierter Kennzahlen. Besonders relevant für Finanzanwendungen und komplexe Decision-Making-Prozesse.
3. Token-Effizienz in agentic Workflows — [GitHub verbessert die Kosteneffizienz](https://github.blog/ai-and-ml/github-copilot/improving-token-efficiency-in-github-agentic-workflows/) von automatisierten Workflows erheblich, um das wachsende Kostenproblem bei CI-Jobs zu adressieren.
4. KI-Podcasts bei Spotify — [OpenClaw und Claude integrieren mit Spotify](https://www.theverge.com/entertainment/925916/save-to-spotify-ai-podcasts) über neue Command-Line-Tools für AI-Agenten.
5. Zuverlässigere Confidence-Estimation — [Neue Methode zur Black-Box-Konfidenzschätzung](https://arxiv.org/abs/2605.06308) reduziert rechnerische Kosten bei Chain-of-Thought-Reasoning durch Trajektorie-Analyse statt reiner Sample-Konsistenz.
### Forschung
- [ReFlect-System](https://arxiv.org/abs/2605.05737) — Neuer Rahmen für LLM-Reasoning, der Fehler in Multi-Stage-Tasks automatisch erkennt und Recovery-Strategien aktiviert.
- [MemReranker](https://arxiv.org/abs/2605.06132) — Reasoning-fähiges Reranking für Agent-Memory-Retrieval behebt das Problem semantisch relevanter, aber inhaltlich unbrauchbarer Suchergebnisse.
- [ZAYA1-8B Technical Report](https://arxiv.org/abs/2605.05365) — Mixture-of-Experts-Modell mit 8B Parametern (700M aktiv) konkurriert mit DeepSeek-R1 in Mathematik und Coding bei minimalerem Ressourcenverbrauch.
- [AgenticRAG](https://arxiv.org/abs/2605.05538) — Praktischer Ansatz für Agentic Retrieval in Enterprise-Wissensdatenbanken reduziert Abhängigkeit von festen Retrieval-Kandidatenmengen.
- [TACT: Activation Steering](https://arxiv.org/abs/2605.05980) — Adressiert "Agent Drift" durch Vermeidung von Overthinking und Overacting in Code-Agenten über lange Trajektorien.
- [Constraint Decay](https://arxiv.org/abs/2605.06445) — Zeigt Schwachstellen von LLM-Agenten bei strukturellen Anforderungen (Architektur, Datenbanken, ORM) in Backend-Codegenerierung.
- [RAG-Sicherheit unter Poisoning](https://arxiv.org/abs/2605.05632) — Multi-Agent-Debate und agentic Retrieval werden erstmals systematisch gegen Knowledge-Base-Vergiftung getestet.
- [PrefixGuard](https://arxiv.org/abs/2605.06455) — Framework für Echtzeit-Fehlerwarnung in LLM-Agent-Traces ohne teure Deployment-Zeit-Judgment.
### Tool-Releases
- [Claude Code v2.1.133](https://github.com/anthropics/claude-code/releases/tag/v2.1.133) — Neue `worktree.baseRef` Settings für flexiblere Git-Branching-Strategien in Agentic Workflows.
- [Claude Agent SDK TypeScript v0.2.133](https://github.com/anthropics/claude-agent-sdk-typescript/releases/tag/v0.2.133) — V2 Session API deprecated, Migration zu `query()`-API, Parität mit Claude Code erreicht.
### Sonstiges
- [SWE-Pruner](https://arxiv.org/abs/2601.16746) — Self-Adaptive Context Pruning für Coding Agents reduziert lange Interaktions-Kontexte und API-Kosten durch Task-spezifische Kompression statt generischer PPL-Metriken.
- [Flexible Agent Alignment](https://arxiv.org/abs/2508.15119) — Open-Universe-Assistance-Games-Framework für bessere Multi-Turn-Agenten, die sich an evolvierende User-Intents anpassen.
Bereiche