★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 13. April 2026
421 Artikel, 18 relevant
# KI-Tagesüberblick 2026-04-13
Highlights
1. Multi-Agent-Sicherheit: Kill-Chain-Canaries für Prompt-Injection-Tracking — [Anthropic und OpenAI](https://arxiv.org/abs/2603.28013) führen ein neues Analyseverfahren ein, das Prompt-Injections in Multi-Agent-LLM-Systemen granular verfolgt. Statt binärer Erfolgs/Misserfolgs-Bewertung werden vier Angriffsstufen (EXPOSED → PERSISTED → ACTED → EXFILTRATED) diagnostiziert – essentiell für Produktionsarchitekturen.
2. AlphaLab: Autonome Forschung mit LLM-Agenten — [Anthropic und OpenAI](https://arxiv.org/abs/2604.08590) präsentieren ein System, das den gesamten experimentellen Forschungszyklus ohne menschliche Intervention durchläuft – von Datenexploration über Hypothesengenerierung bis zur adversarialen Validierung.
3. Tiefere Forschungsfähigkeiten durch strukturiertes Wissen — [Google](https://arxiv.org/abs/2604.07720) und [Anthropic/OpenAI](https://arxiv.org/abs/2604.07927) adressieren Deep-Research-Agenten, die neben Web-Suche auch strukturierte Daten und Reasoning-Tools nutzen – mit neuen Frameworks wie EigentSearch-Q+.
4. API-Portabilität: LLM-Rosetta überbrückt Provider-Fragmentation — [Ein neues Hub-and-Spoke-System](https://arxiv.org/abs/2604.09360) abstrahiert proprietäre LLM-API-Formate durch eine gemeinsame semantische Zwischendarstellung – reduziert Adapter-Komplexität von O(N²) auf O(N).
5. Arcee AI veröffentlicht offenes 400B-Reasoning-Modell — Das Start-up [Trinity-Large-Thinking](https://the-decoder.de/us-start-up-arcee-ai-fordert-mit-offenem-400b-modell-chinesische-ki-labore-heraus/) positioniert sich im Open-Source-Segment gegen Closed-Model-Dominanz, mit Fokus auf Agent-Aufgaben.
## Forschung
Agenten-Sicherheit & Robustheit:
- [Semantic Intent Fragmentation](https://arxiv.org/abs/2604.08608) offenbart neue Klasse von Attacken auf LLM-Orchestrierungssysteme: legitime Anfragen zerfallen in einzeln sichere, aber gemeinsam gefährliche Subtasks.
- [Robust Reasoning Benchmark](https://arxiv.org/abs/2604.08571): Frontier-Modelle zeigen Überfitting auf Standard-Textformatierungen – neue Perturbations-Pipeline testet echte Robustheit.
Agenten-Verbesserungen:
- [SkillMOO](https://arxiv.org/abs/2604.09297): Multi-Objective-Optimierung von Agent-Skills für Code-Aufgaben – balanciert automatisch Erfolgsrate, Kosten und Laufzeit.
- [HiL-Bench](https://arxiv.org/abs/2604.09408): Neue Benchmark identifiziert kritische Schwachstelle – Agenten können nicht zuverlässig zwischen autonomem Handeln und Hilfeanfrage unterscheiden.
- [Tutor-Student Multi-Agent-Systeme](https://arxiv.org/abs/2604.08931): Rollenbasierte Interaktion verbessert Problem-Solving über einzelne Agent-Fähigkeiten hinaus.
Spezialanwendungen:
- [ReplicatorBench](https://arxiv.org/abs/2602.11354): Agenten-Benchmark für wissenschaftliche Replikation inkl. fehlender Daten-Szenarien.
- [MedConceal](https://arxiv.org/abs/2604.08788): Benchmark für klinische Dialogsysteme unter Informationsasymmetrie – Modelle müssen latente Patientensesorgen elizieren.
- [Quantum-Algorithmen-Code-Generierung](https://arxiv.org/abs/2604.04089): LLM-gestützte Workflow mit Theorie-Extraktion → formale Spezifikation → Code-Implementierung für wissenschaftliche Zuverlässigkeit.
RAG & Halluzination:
- [Facet-Level Evidence Tracing](https://arxiv.org/abs/2604.09174): Detaillierte Diagnostik wie Evidenz während der Generierung verwendet wird – atomare Frage-Zerlegung statt pauschaler Answer-Level-Evaluierung.
## Tools & Benchmarks
- [TiAb Review Plugin](https://arxiv.org/abs/2604.08602): Browser-Extension für KI-gestützte Titel/Abstract-Screening – serverlos, kostenfrei, Open-Source.
- [Revdiff](https://github.com/umputun/revdiff): Terminal-basierter Diff-Reviewer mit Inline-Annotationen für Code-Review-Agenten.
## Sonstiges
Industrie & Standards:
- [AI Code Wars intensivieren sich](https://www.theverge.com/column/910019/ai-coding-wars-openai-google-anthropic): Wettbewerb zwischen OpenAI, Google und Anthropic um Coding-Agent-Dominanz verschärft sich.
- [AI Codebase Maturity Model](https://arxiv.org/abs/2604.09388): Fünf-Stufen-Framework für Evolution von reiner Assisted-Coding zu selbstsustainenden Systemen.
Persona-Konsistenz:
- [SPASM](https://arxiv.org/abs/2604.09212): Framework für stabile Persona-Erhaltung in Multi-Turn-Dialogen – kritisch für Training & Evaluation von tutoring/support-Agenten.
---
Trendmuster: Schwerpunkt liegt auf Multi-Agent-Orchestrierung, Sicherheit unter Produktionsbedingungen und Spezialisierung auf konkrete Domänen (Klinisch, Wissenschaft, Code). Gleichzeitig wächst das Open-Source-Segment als Gegenpol zu Closed-Model-APIs.
Bereiche