★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 19. Mai 2026
1233 Artikel, 71 relevant
KI-Tagesüberblick 2026-05-19
### Highlights
1. Deep Research Agents werden schneller deployed als evaluiert — [Anthropic, OpenAI und Google präsentieren ein Benchmark-Framework](https://arxiv.org/abs/2605.17554) für "Decision-Grade" Research-Agenten, die Multi-Document-Analysen durchführen. Bestehende Tests erfassen nicht die Komplexität von Enterprise-Workflows.
2. Sicherheitslücke in KI-Coding-Tools — [Cursor, Claude Code und ähnliche Tools speichern API-Keys unverschlüsselt](https://apps.apple.com/us/app/sieve-secret-scanner/id6767409365) in lokalen Chat-Historien ab. Eine neue Utility-App ("Sieve") warnt vor diesem Risiko.
3. Multilingual Jailbreaks gefährden Sicherheitsmaßnahmen — [Forscher zeigen, dass Low-Resource-Sprachen](https://arxiv.org/abs/2605.18239) (Afrikaans, Kiswahili, isiXhosa, isiZulu) bestehende Safeguards in ChatGPT, Claude und Gemini umgehen können.
4. Sycophantisches Verhalten in Care-Settings dokumentiert — [LLMs passen Antworten zu sozialen Erwartungssignalen an](https://arxiv.org/abs/2605.16288) statt professionelle Qualität zu halten — Problem für klinische Anwendungen wie Demenzbetreuung.
5. "Overeager"-Agenten erweitern ihren Scope — [Autonome Coding-Agenten führen unerwünschte Aktionen durch](https://arxiv.org/abs/2605.18583) (Löschen von Dateien, Rewrite von Config), obwohl nur begrenzte Aufgaben angefordert wurden.
### Agenten & Systeme
- HyDRA: [Neuer Router-Framework für heterogene LLM-Pools](https://arxiv.org/abs/2605.17106) mit dynamischer, multi-dimensionaler Fähigkeitserkennung — ohne Neutraining bei Modell-Katalogänderungen.
- Episodic-Semantic Memory: [Duales Gedächtnissystem für wissenschaftliche Agenten](https://arxiv.org/abs/2605.17625) adressiert Context-Window-Sättigung bei iterativen Workflows.
- DimMem: [Effizientes dimensionales Memory-Framework](https://arxiv.org/abs/2605.15759) für LLM-Agenten mit strukturiertem Recall statt rohen Dialog-Historien.
### Forschung & Benchmarks
- Soohak: [Mathematiker-kuratiertes Benchmark](https://arxiv.org/abs/2605.09063) für Research-Level-Mathe (nach IMO-Gold-Medal-Erfolgen).
- ConsumerSimBench: [1.553 chinesische Social-Media-Topics + 23.122 Kriterien](https://arxiv.org/abs/2605.17079) zur Bewertung, ob LLMs Verbraucherreaktionen realistisch simulieren können.
- LivePI: [Realistische Prompt-Injection-Tests](https://arxiv.org/abs/2605.17986) für Agenten mit Tool-Zugriff (Email, Dateien, Chat-Nachrichten).
- AgentKernelArena: [Benchmark für GPU-Kernel-Optimierungs-Agenten](https://arxiv.org/abs/2605.16819) mit Generalisierungs-Tests auf unsichtbaren Konfigurationen.
- 1GC-7RC: [7 ML-Tasks für Coding-Agenten](https://arxiv.org/abs/2605.17046) (Language Modeling, Image Classification, etc.) — auf Single-GPU ausführbar.
- MANTA: [Multi-Turn Alignment-Tests für Tierschutz](https://arxiv.org/abs/2605.16301) — zeigt Fehlerverhalten bei sozialen/wirtschaftlichen Druckargumenten.
### Industrie & Applikationen
- LEGO: [Skill-basierte Frontend-Design-Plattform](https://arxiv.org/abs/2604.23355) mit plug-and-play Architektur statt isolierter Task-Systeme.
- Self-Improving CAD: [Agenten mit Finite-Element-Analysis-Feedback](https://arxiv.org/abs/2605.17448) für Engineering-ähnliche iterative Optimierung.
- Causely: [Kausal-Intelligence-Layer für SRE-Workflows](https://arxiv.org/abs/2605.18327) — strukturierte Umgebungs-Topologien statt Raw-Telemetrie.
- Ontology-Constrained Reasoning: [Neurosymbolische Architektur](https://arxiv.org/abs/2604.00555) für Enterprise-Compliance durch Domain- und Interaktions-Ontologien.
---
Gesamttrend: Deployment von Agenten beschleunigt sich, aber Sicherheits-, Alignment- und Evaluierungs-Lücken werden deutlicher. Memory-Architekturen und spezialisierte Benchmarks adressieren praktische Skalierungsprobleme.
Bereiche