★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 27. Mai 2026
741 Artikel, 45 relevant
KI-Tagesüberblick 2026-05-27
### Highlights
1. AI-Infrastruktur: Neue Decacorn-Startups entstehen — [Fireworks und Baseten](https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks) erreichen Unicorn-Status, OpenRouter folgt in Kürze. Der Trend der "Inference Inflection" aus April setzt sich fort: Spezialisierte Inferenz-Plattformen werden zu kritischen Infrastruktur-Layern für Enterprise-LLM-Deployments.
2. Multi-Agent LLM-Systeme übertreffen Single-Agent-Baselines deutlich — [DIANOIA](https://arxiv.org/abs/2602.08586) schafft erstmals einen diagnostischen Framework zur Messung von Multi-Agent-Gewinnen (Coverage, Fidelity, Synthesis). Praktiker können nun vorhersagen, welche Architektur für neue Aufgaben funktioniert.
3. Zuverlässigkeit von AI-Agents im Fokus — [Anthropic-Forschung](https://blog.n8n.io/make-ai-agents-more-reliable-and-restrict-the-actions-they-can-take/) zeigt: Erfolgreiche Produktions-Agents nutzen einfache, komponierbare Patterns statt komplexer Systeme. Restriktionen auf erlaubte Aktionen erhöhen Zuverlässigkeit messbar.
4. Knowledge Graphs als kritischer Daten-Layer — [AssetOpsBench-Studie](https://arxiv.org/abs/2605.26874) dokumentiert: GPT-4-Agents erreichen nur 65% Genauigkeit mit flachen Dokument-Stores (CSV/YAML), während strukturierte Knowledge Graphs die Performance signifikant verbessern sollen.
5. Code-Agents beyond Single-Repo-Limits — [BeyondSWE-Benchmark](https://arxiv.org/abs/2603.03194) mit 500 realen GitHub-Szenarien zeigt Grenzen aktueller Agents auf: Cross-Repo-Dependencies und externe Knowledge bleiben untererforscht.
### Forschung
- Handwritten Math OCR Evaluation: [Neue Benchmarks](https://arxiv.org/abs/2604.22774) für multi-zeilige mathematische Handschriften-Erkennung, da bisherige lexikalische Metriken (BLEU) semantisches Reasoning nicht erfassen.
- Causal Discovery mit Multi-Agent LLMs: [Verbesserter Ansatz](https://arxiv.org/abs/2407.15073) zur Identifikation von Kausalbeziehungen, der LLMs als Multi-Agent-System statt Single-Agent nutzt und damit Memorialisierungs-Bias reduziert.
- Specification Autoformalization: [Verus-SpecGym](https://arxiv.org/abs/2605.26457) evaluiert, ob Code-Agents neben Implementierung auch formale Spezifikationen mit Proofs generieren können — kritisch für Formal Verification.
- Multi-Turn Text-to-SQL: [EnterpriseMem-Bench](https://arxiv.org/abs/2605.26394) adressiert Enterprise-Analytics-Gap mit 1.400 Multi-Turn-Szenarien über reale Datenquellen (BIRD, SEC EDGAR).
- Robustheit gegen Noise: [68-Cell-Studie](https://arxiv.org/abs/2605.25981) zeigt: LLM-Agents reagieren auf semantisches Noise (Umformulierungen) stärker als auf Presentations-Noise — inconsistency gap +11-15% über 10 Modelle.
- Supply Chain Knowledge Graphs: [Helicase-System](https://arxiv.org/abs/2605.26835) automatisiert Multi-Hop-Reasoning über fragmentierte Web-Ressourcen für komplexe Strukturinferenz-Probleme.
- Diversity in Evolutionary Inference: [DEI-Framework](https://arxiv.org/abs/2605.27130) nutzt heterogene LLMs als Mutationsoperatoren für Quality-Diversity-Search statt homogener Parallelisierung.
- Automated Research Critique: [E3-System](https://arxiv.org/abs/2605.27072) identifiziert decision-relevant technische Mängel (unsupported claims, fehlende Ablationen, weak baselines).
- Program Termination Reasoning: [LLMs vs. Halting Problem](https://arxiv.org/abs/2601.18987) untersucht, inwiefern LLMs Turing's Undecidability-Problem approximativ lösen können.
### Business & Anwendungen
- Nordic Telecom Customer Service Corpus: [Multilingual Dataset](https://arxiv.org/abs/2605.26891) mit 1.122 validierten Dokumenten (Finnisch, Dänisch, Norwegisch, Schwedisch) für Self-Help-Systeme, aufbereitet durch LLM+Human-Annotation.
- Scientific AI Workflows: [DeepTS und DeepScribe](https://arxiv.org/abs/2605.26305) demonstrieren autonome Agenten für Zeitreihen-Curation und wissenschaftliche Datenerfassung via Hybrid-Architektur (Local Orchestrator + Cloud LLM).
- Agent-Native Retrieval: [LLM-Wiki](https://arxiv.org/abs/2605.25480) ersetzt flache Chunk-Retrieval durch iteratives Reasoning-Interface — Agents können nun suchen, lesen, traversieren und Suffizienzbedingungen selbst bestimmen.
### Sonstiges
- AI Engineering Survey 2026: [Umfrage mit Rewards](https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks) zur Erfassung von Engineering-Trends im Bereich KI-Infrastruktur (>$2k Credits, AIE Workflow-Tickets).
---
Fazit: Die letzten 24h zeigen Konsolidierung im AI-Ops-Stack (spezialisierte Infrastruktur), Reifegrad bei Multi-Agent-Systemen (diagnostische Frameworks, Zuverlässigkeitsmuster) und anhaltende Forschung zu strukturiertem Reasoning (Knowledge Graphs, Formal Verification, Causal Discovery). Single-Agent-Paradigmen werden zunehmend obsolet.
Bereiche