★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 26. Mai 2026
1026 Artikel, 54 relevant
# KI-Tagesüberblick 2026-05-26
Highlights
1. ToolRegistry: Universelle Tool-Integration für LLM-Funktionsaufrufe — Anthropic, OpenAI und Google präsentieren ein standardisiertes System zur protokollagnostischen Tool-Verwaltung. ToolRegistry abstrahiert unterschiedliche Integrationsmethoden (Python, MCP, OpenAPI, LangChain) in ein einheitliches RPC-Modell, das Dispatch, Schema-Generierung und Ausführung zentralisiert. [Zur Arbeit](https://arxiv.org/abs/2507.10593)
2. Prover-Verifier Deliberation: Konfidenzvorhersagen für LLMs — Ein neues Inferenz-Protokoll auf Basis der interaktiven Beweistheorie ermöglicht es Sprachmodellen, strukturierte Konfidenzurteile zu generieren und bei unsicheren Fällen gezielt zu verzichten. Das System verbessert die Zuverlässigkeit von LLM-Vorhersagen erheblich. [Zur Arbeit](https://arxiv.org/abs/2605.25133)
3. SkillOpt: Automatische Optimierung von Agent-Fähigkeiten — Neue Methode trainiert Agent-Skills wie Gewichte in Deep Learning mit reproduzierbarer Disziplin statt Handwerk oder loser Selbstrevisionen. Ermöglicht kontinuierliche Verbesserungen unter Feedback. [Zur Arbeit](https://arxiv.org/abs/2605.23904)
4. LivePI: Realistische Sicherheitsbewertung gegen Indirect Prompt Injection — Benchmark für KI-Agenten mit lokalem Werkzeugzugriff zeigt erhebliche Anfälligkeit für indirekte Prompt-Injections über E-Mails, Dateien und Webinhalte. Bewertet größere und realistischere Angriffsflächen als bisherige Tests. [Zur Arbeit](https://arxiv.org/abs/2605.17986)
5. Verfassungs-Compliance von Frontier-Modellen fraglich — Studie untersucht, wie gut moderne LLMs ihre eigenen Verhaltensrichtlinien (z.B. Anthropics Constitution) unter adversarialem Druck tatsächlich befolgen. Offenbart Lücken zwischen deklarierter und praktizierter Ausrichtung. [Zur Arbeit](https://arxiv.org/abs/2605.24229)
## Forschung: Agenten & Multi-Agent-Systeme
- UniToolCall: Einheitliches Framework standardisiert Tool-Use-Darstellung, Daten und Evaluation über Plattformen hinweg. [Arbeit](https://arxiv.org/abs/2604.11557)
- DimMem: Lightweight-Speichersystem für langfristige Agent-Memory kombiniert Struktur und Effizienz durch dimensionale Encoding. [Arbeit](https://arxiv.org/abs/2605.15759)
- MDIA (Multi-Agent Diagnostic Intelligence): 7-Knoten-Spezialisierungs-Graph für klinisches Reasoning erreicht 0.6272 auf HealthBench ohne Fine-Tuning. [Arbeit](https://arxiv.org/abs/2605.24699)
- Two-Dimensional Framework for AI Agent Design: Systematisierung von Agenten-Architekturen über zwei Achsen (kognitive Funktion + Execution Topology). [Arbeit](https://arxiv.org/abs/2605.13850)
- Code2UML: Agentic LLM-System mit Context Engineering für skalierbare UML-Diagramm-Generierung aus großen Codebases. [Arbeit](https://arxiv.org/abs/2605.24453)
## Forschung: Prompt Engineering & Training
- UtilityMax Prompting: Mathematischer Rahmen für Multi-Objective LLM-Tasks als Influence Diagrams statt natürlichsprachige Prompts. [Arbeit](https://arxiv.org/abs/2603.11583)
- BC Protocol (Structured Dual-Expert Dialogue): Generiert hochwertige Chain-of-Thought-Trainingsdaten durch Expert-Dialoge statt Solo-Annotation oder reine RLHF. [Arbeit](https://arxiv.org/abs/2605.25549)
- Mitigation-Aware Chain-of-Thought (MA-CoT): Framework für sichere Code-Generierung integriert CWE-Mitigations-Guidance und sprachspezifische Schutzmaßnahmen. [Arbeit](https://arxiv.org/abs/2605.24300)
## Forschung: Memory & Context Management
- WhenLoss: Diagnostik-Protokoll zur Unterscheidung von Write- vs. Retrieval-Bottlenecks in Long-Context Memory Systemen. [Arbeit](https://arxiv.org/abs/2605.24579)
- Cooperative Memory Paging: Keyword-Bookmarks ersetzen evicted Kontextabschnitte; recall()-Tool ermöglicht on-demand Wiederherstellung für Gespräche über Context-Window. [Arbeit](https://arxiv.org/abs/2604.12376)
## Forschung: Evaluation & Bias
- Counter Turing Test: Umfangreiche Studie zur AI-Text-Detection über GPT-4, Claude 3.5, Llama und andere Modelle. [Arbeit](https://arxiv.org/abs/2605.20761)
- Thai Bar-Exam Stability Study: Vergleich von LLM-Judges mit Bar Council-Prüfern bei freiform-juristischen Essays offenbart Unterschiede in Inter-Rater-Stabilität. [Arbeit](https://arxiv.org/abs/2605.25652)
- AMEL (Accumulated Message Effects on LLM Judgments): Meta-Analyse über 75.898 API-Calls zu 11 Modellen zeigt, dass Polarity von Konversationshistorie nachfolgende Bewertungen systematisch beeinflusst. [Arbeit](https://arxiv.org/abs/2605.22714)
- Tool Shortlist Optimization: Chance-corrected Metrik für optimale Anzahl von Werkzeugen in Agent-Retrieval. [Arbeit](https://arxiv.org/abs/2605.24660)
## Forschung: Spezialisierte Anwendungen
- PennySynth: RAG-getriebene Datensynthese für korrekte PennyLane-Quantum-Code-Generierung adressiert Halluzinationen bei Quantum-Framework-Code. [Arbeit](https://arxiv.org/abs/2605.25572)
Bereiche