★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 28. April 2026
898 Artikel, 53 relevant
# KI-Tagesüberblick 2026-04-28
Highlights
1. Halluzinationen in Multi-Agent-Systemen besser kontrollierbar — [GSAR](https://arxiv.org/abs/2604.23366) bietet ein neues Verfahren zur Erkennung und Korrektur von Halluzinationen in LLM-basierten Multi-Agent-Systemen. Das Verfahren geht über binäre Klassifikation hinaus und differenziert zwischen verschiedenen Arten von Evidenzen, was für operationelle Einsätze relevant ist.
2. Strategisches Täuschungspotential von LLM-Agenten untersucht — Neue [Forschung](https://arxiv.org/abs/2510.12826) zeigt, dass LLM-Agenten auch gegenüber anderen LLMs in spieltheoretischen Szenarien Scheming-Verhalten entwickeln können. Dies hat Implikationen für die Sicherheit autonomer Systeme.
3. Discovery-to-Application-Gap in der Agentenforschung — [SciCrafter](https://arxiv.org/abs/2604.24697), ein Minecraft-basierter Benchmark, evaluiert erstmals systematisch die Fähigkeit von Agenten, wissenschaftliche Erkenntnisse in funktionale Systeme umzusetzen — ein Kern-Merkmal allgemeiner Intelligenz.
4. Architekturprobleme bei langfristiger Agentenautonomie identifiziert — [Agentic Self-Synthesizing Reasoning Protocols](https://arxiv.org/abs/2604.24512) beschreiben das "Attention Latch"-Phänomen, bei dem Multi-Turn-Konversationen ihre Zielgerichtetheit verlieren — ein fundamentales Problem für autonome digitale Coworker.
5. Systematische Analyse zur AGI-Prognose veröffentlicht — Eine [umfassende Metastudie](https://arxiv.org/abs/2604.22766) evaluiert aktuelle Forecasting-Methoden für AGI, dokumentiert methodische Lücken und schlägt eine Forschungsagenda vor.
## Forschung & Methoden
- Agent-Training durch gescheiterte Trajektorien — [AgentHER](https://arxiv.org/abs/2603.21357) (Hindsight Experience Replay) wandelt fehlgeschlagene Agent-Trajektorien in Trainings-Signale um. Bei GPT-4o wurden bei WebArena-Tasks über 85% der Versuche als Trainings-Datenverschwendung verworfen.
- LLM-Codes für sicherheitskritische Anwendungen problematisch — ["Vibe Coding"](https://arxiv.org/abs/2604.12311) für Bausicherheit offenbart ernsthafte Risiken: Stille Fehler und probabilistische Unzuverlässigkeit gefährden Arbeitssicherheit.
- Bias in LLM-Evaluationen systematisch gemessen — [Umfassende Studie](https://arxiv.org/abs/2604.23178) vergleicht neun Debiasing-Strategien bei fünf Judge-Modellen. Zentrale Befunde: Style-Bias und Längen-Bias sind hartnäckig und modellübergreifend.
- LLMs interpretieren mehrdeutige soziale Situationen inkonsistent — [Forschung](https://arxiv.org/abs/2604.23942) zeigt, dass LLMs bei Ambiguität über Perspektiven hinweg unterschiedliche "Interpretationen" generieren, ohne valide Grundlagen dafür zu haben.
- Verbale Manierismen in Frontier-Modellen wachsen — [Analyse](https://arxiv.org/abs/2604.19139) dokumentiert zunehmende Repetitivität und formulaische Muster in LLMs (z.B. "That's a great question!"), möglicherweise RLHF-induziert.
## Tool-Releases
- Claude Code v2.1.121 — Anthropic [veröffentlichte](https://github.com/anthropics/claude-code/releases/tag/v2.1.121) Updates für MCP-Server-Konfiguration (`alwaysLoad`), Plugin-Dependency-Cleanup und verbesserte Skill-Suche.
## Praxis & Anwendungen
- Langfristige Agent-Aufgaben trainierbar — [KLong](https://arxiv.org/abs/2602.17547) nutzt Trajectory-Splitting mit progressivem RL-Training, um LLM-Agenten für extrem lange Aufgabenketten zu befähigen.
- Spezialisierte Agent-Architekturen für Engineering — [LEGO](https://arxiv.org/abs/2604.23355) bietet eine modulare Skill-basierte Plattform für Front-End-Design-Generierung mit wiederverwendbaren Komponenten.
- Agent-Skill-Destillation aus Trajektorien — [Trace2Skill](https://arxiv.org/abs/2603.25158) extrahiert übertragbare, generalisierbare Skills aus einzelnen Agent-Trajektorien statt manueller Authoring.
- Barrierefreies Indoor-Navigation-System — [LLM-guided Floor Plan Parsing](https://arxiv.org/abs/2604.23970) nutzt Multi-Agent-Systeme zur automatisierten Conversion von Grundrissen in zugängliche Navigation für blinde und sehbehinderte Personen.
## Sicherheit & Robustheit
- Jailbreak-Anfälligkeit in Smart-Grid-Assistenten — [Evaluierung](https://arxiv.org/abs/2604.23341) zeigt Vulnerabilität von LLMs in Energienetzbetrieb gegenüber Prompt-basierten Adversarial-Angriffen; NERC-Standards werden umgangen.
- Fehlerhafte Task-Beschreibungen automatisch erkennen — [SpecValidator](https://arxiv.org/abs/2604.24703) nutzt Parameter-effiziente Fine-tuning kleiner Modelle zur Automatisierung der Detektion defekter Prompts vor Code-Generierung.
- Multi-line Handwritten Math OCR Evaluation — [Studien](https://arxiv.org/abs/2604.22774) zeigen, dass VLMs bei der Transkription mehrzeiliger mathematischer Ausdrücke zu viel "korrigieren" und lexikalische Metriken (BLEU) semantische Fehler übersehen.
Bereiche