Live
Bring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIBuild Long-running AI agents that pause, resume, and never lose context with ADKMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIBring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIBuild Long-running AI agents that pause, resume, and never lose context with ADKMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLI

KI Force — Die deutsche KI-Wissensreferenz

18 Anbieter · 123+ Quellen · 33291+ Artikel

★ Aktuell Alle News →

Bring state-of-the-art agentic skills to the edge with Gemma 4

Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...

Neueste Artikel Mehr ansehen →
• developers

ADK Go 1.0 Arrives!

The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...

▶ Tages-Digest — 25. Mai 2026 417 Artikel, 19 relevant
# KI-Tagesüberblick 2026-05-25

Highlights

1. SkillOpt: Systematische Optimierung von Agent-Fähigkeiten — Anthropic und OpenAI präsentieren einen neuen Ansatz zur strukturierten Optimierung von Agent-Skills wie Deep Learning. Statt einmaliger Generierung oder unkontrollierter Selbstrevision werden Skills als externe Zustände eines gefrorenen Agenten trainiert, was reproduzierbare Verbesserungen ermöglicht. [Zur Veröffentlichung](https://arxiv.org/abs/2605.23904)

2. Frontier-LLMs in der Cybersicherheit evaluiert — Forscher bewerteten GPT-5.4, Claude Opus und Gemini auf realistische Sicherheitstasks: White-Box-Vulnerability-Detection (C/Java/Python) und Black-Box-Penetrationstests mit 118 echten Schwachstellen. Ein umfassendes Benchmark wird open-sourced. [Zur Studie](https://arxiv.org/abs/2605.23243)

3. Agentic Safety Benchmark "Boiling the Frog" — Anthropic und Google adressieren einen kritischen Gap: Traditionelle Safety-Benchmarks testen, was Modelle sagen — nicht, was sie in realen Umgebungen tun. Das neue Benchmark verschiebt den Fokus auf mehrturnige agentische Szenarien. [Zur Veröffentlichung](https://arxiv.org/abs/2605.22643)

4. Temporal Failure Modes in LLM Legal Research — Anthropic und OpenAI identifizieren zwei kritische Fehler bei der Verwendung von LLMs für Rechtsfragen: Post-Cutoff-Veraltung (Anwendung überholter Gesetze) und Recency Bias (Bevorzugung neuerer Bestimmungen). [Zur Veröffentlichung](https://arxiv.org/abs/2605.23497)

5. Microsoft Security Copilot: Adaptive Threat Detection — Microsoft zeigt den Dynamic Threat Detection Agent (DTDA), einen kontinuierlich lernenden Security-Agenten, der Cyberattacken adaptiv erkennt statt reaktiv Signale zu übersetzen. [Zur Studie](https://arxiv.org/abs/2605.20896)

## Forschung

- Formal Verified Code Generation — "Inductive Deductive Synthesis" kombiniert AI-Code-Generierung mit mechanischer Verifikation für verteilte Systeme, um Konsistenzgarantien zu liefern, die Testing allein nicht bietet. [Link](https://arxiv.org/abs/2605.23109)

- LLM-gesteuerte Organisationswissensanalyse — Gemini 2.5 und Claude können aus Slack-Logs zuverlässig Domänenwissen von Mitarbeitern inferieren (27.188 Nachrichten, 43 Nutzer evaluiert). [Link](https://arxiv.org/abs/2605.22971)

- Strategic Reasoning Benchmark — GENSTRAT evaluiert LLMs als ökonomische Agenten in Spieltheorie-Settings und adressiert die Verallgemeinerung über kanonische Benchmarks hinaus. [Link](https://arxiv.org/abs/2605.23238)

- Cross-linguale Jailbreak-Anfälligkeit — Systematische Red-Teaming zeigt, dass Claude Sonnet 4.5, GPT-5 und Qwen Omni unterschiedliche Schwachstellen in US English vs. Mexikanischem Spanisch aufweisen — Hinweis auf mechanistische Alignment-Unterschiede. [Link](https://arxiv.org/abs/2605.23157)

- LLM-Routing für Agentic Applications — TwinRouterBench testet Kostenoptimierung in realistischen Multi-Turn-Szenarien (Coding Agents, Research Systems) statt nur One-Shot-Prompts. [Link](https://arxiv.org/abs/2605.18859)

- Model-Generated Agent Skills: Systematische Analyse — Neuer systematischer Überblick zum Extrahieren, Kuratieren und Konsumieren von skills aus LLM-Erfahrung für Domain-Adaptation. [Link](https://arxiv.org/abs/2605.23899)

- AI-gestützte Code Review mit philosophischen Dispositionen — Innovativer Ansatz, Code-Reviews durch epistemologische Lenses (Pyrrhonismus, Konfuzianismus) zu steuern statt homogener "Expert"-Outputs. [Link](https://arxiv.org/abs/2605.23108)

- Molekülen-Generierung aus Natürlichsprachenbeschreibungen — Speak-to-Structure-Benchmark misst LLMs nicht nur auf Retrieval, sondern auf kreative Generierung valider diverser Molekülen-Kandidaten. [Link](https://arxiv.org/abs/2412.14642)

- Commercial ASR bei Code-Switching — Benchmark für arabisch-englisch, persisch-englisch und deutsch-englisch Sprachmischung zeigt erhebliche Lücken bei kommerziellen Systemen. [Link](https://arxiv.org/abs/2605.19069)

## Sicherheit & Governance

- SafeHarbor: Memory-Augmented Guardrails — Hierarchisches Verteidigungssystem gegen Tool-Misuse in LLM-Agenten, das zwischen Robustheit und legitimer Funktionalität balanciert. [Link](https://arxiv.org/abs/2605.05704)

- Claude Code Remote System Prompt Injection — Hacker News Diskussion über potenzielle Security-Bedenken bei API-Calls zu `api.anthropic.com/claude_cli/bootstrap`, die Remote-Prompt-Injection ermöglichen könnten. [Link](https://news.ycombinator.com/item?id=48259288)

## Benchmarks & Evaluation

- Knowledge Work Benchmarking Framework — Neue Methodik für realistische Evaluierung von LLM-Agenten in Coding, Research und Healthcare, die über traditionelle NLP-Task-Logik hinausgeht. [Link](https://arxiv.org/abs/2605.23262)

- MadEvolve: Algorithmen-Optimierung für Finanz-Trading — Framework optimiert quantitative Handelsstrategien und Bitcoin-Alpha-Generierung mittels LLM-gesteuerte Evolutionärer Algorithmen. [Link](https://arxiv.org/abs/2605.23007)

---

Zusammenfassung: Der KI-Fokus dieser Woche liegt auf der Professionalisierung von Agenten (Skills, Routing, Safety-Benchmarks) und der realistische Evaluierung jenseits von Standardtests. Besondere Aufmerksamkeit verdienen die neuen Safety-Frameworks für multi-turn Szenarien und Sicherheitslücken bei kommerzialisierten Tools.
▶ Top Playbooks Alle Playbooks →
Bereiche