★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 04. Juni 2026
694 Artikel, 31 relevant
# KI-Tagesüberblick 2026-06-04
Highlights
1. Self-Reflective APIs verbessern KI-Agent-Zuverlässigkeit — [Anthropic/OpenAI-Forschung](https://arxiv.org/abs/2606.05037) zeigt, dass strukturierte Recovery-Feedback bei API-Validierungsfehlern die Task-Completion-Rate deutlich erhöht. Agents können Anfragen eigenständig reparieren statt externe Reasoning-Schleifen zu durchlaufen.
2. Axiom Math löst Putnam-Prüfung vollständig — Das 7 Monate alte Startup [erzielte 12/12 Punkte](https://www.latent.space/p/axiom) in der prestigeträchtigen Mathematik-Prüfung und übertraf damit etablierte LLMs wie DeepSeek (103/120). Markiert Wendepunkt von „informaler" zu deploymentreifer KI-Mathematik.
3. Hybridmodelle ersetzen reine Transformer — [Interfaze](https://arxiv.org/abs/2602.04101) fusioniert task-spezifische CNNs/DNNs direkt im Transformer-Decoder für OCR, GUI-Detection und Spracherkennung. Signalisiert Trend weg von generalisierten hin zu spezialisierten Architekturen.
4. Token-Effizienz wird Benchmark-Standard — [OckBench](https://arxiv.org/abs/2511.05722) adressiert kritische Lücke: Modelle mit gleicher Accuracy zeigen bis zu 5x Unterschiede in Token-Nutzung. Kostenoptimierung rückt in den Fokus von Evaluationen.
5. Enterprise-AI braucht Pre-Deployment-Zertifizierung — [Anthropic-Framework](https://arxiv.org/abs/2606.04037) kombiniert Ontologie-basierte Simulation, Agent Operational Envelopes und Trust Certification — adressiert Sicherheitslücke zwischen Benchmarking und Produktionseinsatz.
---
## Forschung
Multi-Agent-Systeme:
- [StreamMA](https://arxiv.org/abs/2606.05158) reduziert Latenz durch Streaming von Reasoning-Schritten zwischen Agents statt sequenzieller Generate-Transfer-Pipeline
- [Consensus-Topologie](https://arxiv.org/abs/2606.04197) zeigt: Speichertiefe und Netzwerkstruktur interagieren nicht-linear bei Multi-Agent-Koordination
Agent-Sicherheit & Zuverlässigkeit:
- [Saturation Trap](https://arxiv.org/abs/2606.04296): Affekt-basierte Trigger und LLM-Richter scheitern bei Intervention-Timing bei autonomen Agents
- [Domain-abhängige Safety](https://arxiv.org/abs/2606.04035): Compliance-Raten variieren zwischen 14,7% (Menschenhandel) und 85,7% (Suchtmittel) über ethische Domänen
Benchmark & Evaluationen:
- [KINA](https://arxiv.org/abs/2606.05104): 899-Item-Benchmark über 261 Disziplinen adressiert Skalierungs- und Repräsentativitätsprobleme bestehender Knowledge-Benchmarks
- [MANTA](https://arxiv.org/abs/2605.16301): Multi-Turn Adversarial Benchmark für Tierschutz-Reasoning deckt Alignment-Degradation über Konversationsverlauf auf
Speicher & kontinuierliches Lernen:
- [Parametric Memory (TMEM)](https://arxiv.org/abs/2606.04536): Agents mit Lernfähigkeit während Rollout statt gefrorener Parameter
- [Skill-Enhanced Co-Evolution](https://arxiv.org/abs/2606.04815): Test-Time-Lernen aus Feedback für Lifelong Learning Agents
Weitere technische Advances:
- [SkCC](https://arxiv.org/abs/2605.03353): Portable Skill-Kompilation über verschiedene Agent-Frameworks mit Sicherheitsfocus
- [LLM-basierte OR-Modellierung](https://arxiv.org/abs/2606.04816): Constraint-Injection verhindert falsche Optimierungsmodelle bei Vehicle Routing
---
## Business
Kostenmanagement im Einsatz:
[Uber limitiert Nutzung](https://simonwillison.net/2026/Jun/3/uber-caps-usage/) von Claude Code und ähnlichen AI-Tools nach Budgetausreißer (2026er Budget in 4 Monaten aufgebraucht). Signalisiert wachsende Diskrepanz zwischen erwarteten und tatsächlichen Betriebskosten bei produktivem AI-Einsatz.
---
## Sonstiges
Forschungs-Muster: Schwerpunkt auf Agent-Zuverlässigkeit, Enterprise-Deployment und Kostenkontrolle. Weniger Fokus auf Modellscaling, mehr auf Effizienz und Safety-Zertifizierung in Production.
Bereiche