★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 14. April 2026
1084 Artikel, 52 relevant
KI-Tagesüberblick 2026-04-14
### Highlights
1. AI-Agenten erobern spezialisierte Berufsbereiche — Neue Benchmarks evaluieren KI-Agenten auf realen Workflow-Szenarien in Investment Banking, Gesundheitsverwaltung und über 65 spezialisierte Domänen hinweg. Die Erkenntnisse zeigen: Agenten sind starke Tool-Nutzer, scheitern aber bei komplexen Navigationsaufgaben.
2. Globale Pharmainnovation verlagert sich außerhalb der USA — Eine neue [Studie zu KI-Agenten für Drug Scouting](https://arxiv.org/abs/2602.15019) dokumentiert, dass über 85% der Patent-Anmeldungen außerhalb der USA erfolgen und China 30% der globalen Wirkstoffentwicklung ausmacht — KI-Systeme müssen multilingual und regional agieren.
3. Kritische Sicherheitslücke in LLM-Memory-Systemen — [AttnTrace-Forschung](https://arxiv.org/abs/2508.03793) zeigt, dass Long-Context-Modelle anfällig für Prompt Injection und Knowledge Corruption in RAG-Pipelines sind, besonders bei Gemini-2.5-Pro und Claude-Sonnet-4.
4. Tool-Use-Standards eingeführt — [UniToolCall-Framework](https://arxiv.org/abs/2604.11557) standardisiert erstmals die fragmentierte Landschaft von Agent-Tool-Interaktionen mit einheitlichen Representationen und Evaluierungsbenchmarks.
5. Cloudflare startet "Agents Week" — Initiative zur Infrastruktur-Anpassung an KI-Agenten-Workloads; zentrale These: Internet und Cloud wurden nicht für das Agenten-Zeitalter gebaut.
### Forschung
Agent-Performance & Evaluierung:
- [The Amazing Agent Race (AAR)](https://arxiv.org/abs/2604.10261): Benchmark mit komplexen DAG-Puzzle-Workflows zeigt, dass bestehende Tests zu 55-100% lineare Simple-Chain-Aufgaben sind — reale Anforderungen sind deutlich komplexer.
- [OccuBench](https://arxiv.org/abs/2604.10866): 100 Real-World-Aufgaben über 10 Industrien und 65 spezialisierte Domänen zur Evaluierung von Agenten auf professionellen Tasks.
- [BankerToolBench](https://arxiv.org/abs/2604.11304): Investment-Banking-spezifischer Agent-Benchmark basierend auf echten Workflows von 502 Junior-Bankern.
Agent-Architektur & Reasoning:
- [CoEvoSkills](https://arxiv.org/abs/2604.01687) (Anthropic): Konzept von wiederverwendbaren "Skills" statt einzelner Tools — Multi-File-Artefakte für komplexe, mehrstufige Aufgaben mit Co-Evolutionary Verification.
- [Reasoning Rigidity-Problem](https://arxiv.org/abs/2603.22816): Neue Metrik (SLRC) zeigt, dass Step-by-Step-Reasoning oft dekorativ ist, nicht genuine. Neue Trainingsmethode LC-CoSR mit Lyapunov-Stabilitätsgarantien.
- [Spatial World Models in LLMs](https://arxiv.org/abs/2604.10690): Systematische Evaluierung zeigt, dass Modelle (GPT-5-mini, Claude-Haiku-4.5, Gemini-2.5-Flash) begrenzte Multi-Step-Planning-Fähigkeiten in Maze-Tasks haben.
Memory & Kontext:
- [Diagnosing Agent Memory Bottlenecks](https://arxiv.org/abs/2603.02473): Framework zeigt Retrieval-vs.-Utilization-Probleme — wie Erinnerungen geschrieben werden, ist wichtiger als wie sie abgerufen werden.
Coding Agents:
- [Agent Rules in Coding](https://arxiv.org/abs/2604.11088): Großangelegte empirische Studie mit 679 GitHub-Instruktionsdateien (25.532 Regeln) zeigt: Guardrails (strikte Regeln) schlagen Guidance (Anleitungen) auf SWE-bench.
- [Rust-zu-Python-Migration](https://arxiv.org/abs/2604.11518): LLM-gestützte kontinuierliche Code-Translation mit Agenten-Benchmarks als Ziel-Funktion.
Multimodal & RAG:
- [MCERF-Framework](https://arxiv.org/abs/2604.09552): Multimodale Retrieval-Lösung für technische Dokumentation mit dichtem Text, Tabellen und Illustrationen.
### Tool-Releases & Infrastruktur
- Cloudflare Sandbox Authentication: [Dynamic, identity-aware Sandbox-Authentifizierung](https://blog.cloudflare.com/sandbox-auth/) für sichere sandboxed Agenten in Chat-, Code- und Terminal-Workflows.
### Sonstiges
- Performance-Energy Trade-offs: [Neue Messungen](https://arxiv.org/abs/2604.09611) zeigen Latenz- und Energieamplifizierung in Multi-Request-LLM-Workflows (Zusammenfassungen, Search-Copilots, Multi-Agent-Programming).
- Interactive Learning für Reasoning: [Multi-Agent-Ansatz](https://arxiv.org/abs/2509.26306) zeigt, dass Agenten durch gegenseitige Interaktion ihre Reasoning-Fähigkeiten während des Trainings verbessern können — Erkenntnisse auch auf Inferenzzeit anwendbar.
---
Gesamteindruck: Die Woche zeigt eine Reifung des Agent-Ökosystems weg von einfachen Tool-Chains zu spezialisierten, domainen-spezifischen Systemen. Sicherheit (Prompt Injection, Memory-Attacks) und Standardisierung (UniToolCall) werden kritische Themen.
Bereiche