★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 22. Mai 2026
655 Artikel, 41 relevant
# KI-Tagesüberblick 2026-05-22
Highlights
1. Datasette Agent Released — Neue KI-Assistentin für [Datasette](https://datasette.io/blog/2026/datasette-agent/) kombiniert das LLM-Python-Framework mit der Datenbank-Inspektionsplattform. Ermöglicht konversative Schnittstelle für Datenabfragen und -analyse.
2. Agentic Workflows in LLM-Gewichte kompilierbar — [Forschung zeigt](https://arxiv.org/abs/2605.22502), dass Workflows direkt in Modellgewichte kompiliert werden können und dabei Kosten um zwei Größenordnungen senken, während Qualität frontier-nahe bleibt.
3. Domain-Camouflaged Injection Attacks entdeckt — [Sicherheitslücke](https://arxiv.org/abs/2605.22001): Injektions-Detektoren scheitern bei Angriffen, die sich an Zieldomänen-Vokabular anpassen (Erkennungsrate sinkt von 93,8% auf 9,7%).
4. LLM-Evaluatoren zeigen Urteilsverzerrung — [Studie mit 75.898 API-Calls](https://arxiv.org/abs/2605.22714) belegt, dass frühere Gesprächshistorie nachfolgende Bewertungen systematisch beeinflusst (AMEL-Effekt).
5. HealthCraft: Sicherheitsbenchmark für Notfallmedizin — [Neues Environment](https://arxiv.org/abs/2605.21496) testet Modelle auf realistische Fehlermodelle in klinischen Workflows statt statischer QA-Benchmarks.
## Modell-Updates & Evaluationen
- Gemini 3.1 Pro dominiert Risk-Strategiespiele — Gewinnt [32-Spiele-Championship](https://arxiv.org/abs/2605.22238) gegen andere Provider unter Zeitdruck und Ressourcenbeschränkungen (20/32 Siege).
- News-Intermediär-Test — [Vergleich von 6 Chatbots](https://arxiv.org/abs/2605.22785) (Gemini, Grok, Claude, GPT-5/4o) über 2.100 aktuelle Faktenfragen zeigt Unterschiede in Genauigkeit bei realweltlichen Nachrichten.
- Modelle verschärfen Konflikte in bestimmten Szenarien — [Alignment-Studie](https://arxiv.org/abs/2605.22720) mit 9 Konfigurationen von 4 Providern identifiziert Probleme in konfliktgeladenen Kontexten.
## Tool-Releases
- pg_statviz 1.0 — PostgreSQL-Erweiterung mit [neuem AI-Feature](https://www.postgresql.org/about/news/pg_statviz-10-released-with-ai-powered-analysis-3301/) zur automatisierten Analyse von Datenbankstatistiken.
- HarnessAPI Framework — [Unified API-Framework](https://arxiv.org/abs/2605.22733) zur nahtlosen Bereitstellung von Python-Funktionen sowohl als HTTP-Endpoints als auch als MCP-Tools.
## Forschung
- LLM vs. Fine-tuned Models bei Extraction-Tasks — [Komplexitäts-Score-Analyse](https://arxiv.org/abs/2605.21845) für strukturierte Datenextraktion aus Narrativen, relevante Unterschiede bei Prompt-Detaillierung.
- Ratchet: Self-evolving Skill-Management — [Neuer Agent-Loop](https://arxiv.org/abs/2605.22148) für selbstverwaltende Fähigkeitsbibliotheken mit Kuration und Retirement von LLM-generierten Skills.
- Halluzinationen als Sicherheitslücken — [Evidence-Carrying Agents](https://arxiv.org/abs/2605.19192) behandeln unsupported Claims bei Multimodal-Agents als autorisierungskritisch.
- Adversariale Transferangriffe auf MLLMs — [Frequency-Domain Regularisierung](https://arxiv.org/abs/2605.21541) verbessert Transferierbarkeit von Adversarial-Perturbationen auf geschlossene Modelle.
- CTF-Performance-Überprüfung — [Zweite Evaluierung](https://arxiv.org/abs/2605.21497) von LLM-Agenten bei Web-Security-Challenges zeigt differenziertere Ergebnisse als frühere Claims.
- NeuSymMS: Hybrid Memory für persistente Agenten — [Neuro-symbolisches System](https://arxiv.org/abs/2605.17596) für Session-übergreifendes Lernen mit CLIPS-basierter Faktendeduplication.
## Business & Produkte
- Google Gemini AI Studio für Android — [Schnelle Prototypisierung](https://www.theverge.com/ai-artificial-intelligence/935056/google-vibe-coding-first-android-app-gemini-ai-studio) von Android-Apps mit „Vibe Coding" möglich (3 Apps in einem Nachmittag).
- Trend: Computer-Access für Agenten — Perplexity, Manus, Cursor und andere erweitern Agent-Fähigkeiten auf direkten Computer-Zugriff.
- Spec-Driven Development für Claude Code — [Workflow-Optimierungen](https://news.ycombinator.com/item?id=48231575) durch mehrdimensionale Decomposition und kontextuelle Trennung verbessern Agent-Performance deutlich.
Bereiche