Live
Bring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIA2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UIBring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIA2UI v0.9: The New Standard for Portable, Framework-Agnostic Generative UI

KI Force — Die deutsche KI-Wissensreferenz

18 Anbieter · 123+ Quellen · 22335+ Artikel

★ Aktuell Alle News →

Bring state-of-the-art agentic skills to the edge with Gemma 4

Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...

Neueste Artikel Mehr ansehen →
• developers

ADK Go 1.0 Arrives!

The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...

▶ Tages-Digest — 05. Mai 2026 876 Artikel, 59 relevant
KI-Tagesüberblick 2026-05-05

### Highlights

1. LLMs zeigen systematische Verzerrungen bei Nachrichtenglaubwürdigkeit — Frontier-Modelle klassifizieren Unterhaltungsnachrichten deutlich häufiger als Fake ein als seriöse Hard News, obwohl beide legitim sind. Das Problem ist modellspezifisch, zeigt aber ein grundsätzliches Fairness-Problem bei Zero-Shot-Bewertungen. [Studie](https://arxiv.org/abs/2605.01727)

2. Agentic Research beschleunigt Forschungszyklen drastisch — Ein Forscherteam reproduzierte und erweiterte eine komplette ACL-2026-Studie in drei Stunden durch agentengestützte Systeme, statt Wochen zu benötigen. Dies signalisiert einen fundamentalen Wandel in NLP-Workflows. [Paper](https://arxiv.org/abs/2605.02620)

3. Epistemische Monokultur bei KI-Forecasting entdeckt — GPT-4o, Claude und Gemini zeigen hochkorrelierte Prognosefehler (r=0.77), was die Unabhängigkeit von KI-basierten Vorhersagen gefährdet und kollektive Intelligenzansätze untergräbt. [Studie](https://arxiv.org/abs/2605.00844)

4. Multiagenten-Systeme überwinden Single-Agent-Grenzen — Spezialisierte Agenten in Hydrodynamik-Workflows ersetzen den Bottleneck eines einzelnen Kontext-Fensters, verbessern Zuverlässigkeit durch verteilte Planung und Tool-Nutzung. [Research](https://arxiv.org/abs/2605.01102)

5. Jailbreak-Sicherheitslücke durch kontextuelle Priming — Automatisierte Red-Teaming zeigt, dass mehrteilige Konversationen systematisch Sicherheitsalignment umgehen können — bisheriges Verfahren zur Sicherheit unter Druck. [Paper](https://arxiv.org/abs/2605.02647)

### Forschung & Benchmarks

- DiagramNet-Dataset — Erstes Multimodal-Dataset für nicht-standardisierte System-Diagramme in Chip-Design mit 10.977 Annotationen. Adressiert MLLM-Schwächen bei technischen Architektur-Visualisierungen. [arxiv](https://arxiv.org/abs/2605.01338)

- Medmarks Benchmark-Suite — 30 Open-Source-Benchmarks für medizinische LLM-Evaluierung (QA, Information Extraction, klinische Kalkulationen). Adressiert Saturation bestehender Benchmarks. [arxiv](https://arxiv.org/abs/2605.01417)

- Strukturierte Output-Zuverlässigkeit — Lücke zwischen mathematischer Korrektheit und Format-Compliance in Small Language Models (7-9B) nachgewiesen. Nur 60-70% der korrekten Antworten sind auch strukturell valid. [arxiv](https://arxiv.org/abs/2605.02363)

- 1M-Token Kontext-Evaluation — Frontier-Modelle getestet auf klassischem Chinesisch mit echten 1M-Token-Fenstern. Ergebnisse zeigen Grenzen echter Retrieval-Fähigkeiten bei maximalen Kontextlängen. [arxiv](https://arxiv.org/abs/2605.02173)

### Fachdomänen

- Brasilianische Klinikleitlinien für LLMs — Qwen2.5-14B gezielt mit 178 offiziellen brasilianischen Gesundheitsrichtlinien trainiert. Schließt Lücke für 200+ Millionen Nutzer ohne locale klinische KI-Expertise. [arxiv](https://arxiv.org/abs/2605.01077)

- Medizinisches Multi-Bild-Reasoning — Benchmark MedThinkVQA für Szenarien, wo klinische Diagnosen mehrere Bilder integrieren (statt einzelner View). Expert-annotiert mit Step-Level-Evaluierung. [arxiv](https://arxiv.org/abs/2604.16506)

- Text-to-SQL mit flexibler DB-Interaktion — FlexSQL-Agent nutzt iteratives Datenbankzugreifen statt Single-Pass-Retrieval, reduziert frühe Fehler bei komplexen Schemas. [arxiv](https://arxiv.org/abs/2605.02815)

### Sicherheit & Alignment

- Post-Alignment Tampering via BYOK-Relays — Malicious Third-Party-Relays können aligned-LLM-Responses nach Generation aber vor Execution modifizieren. End-to-End-Integrität nicht garantiert. [arxiv](https://arxiv.org/abs/2605.02187)

- Self-Correction als Feedback-Control — Iterative Selbstkorrektur in Agenten instabil: Error Introduction Rate und Correction Rate bestimmen, ob Verfeinerung hilft oder schadet. [arxiv](https://arxiv.org/abs/2604.22273)

### Business & Deployment

- Neurosymbolic Enterprise-Architektur — Foundation AgenticOS (FAOS) nutzt Ontologie-Constraints für halluzinationsresistente Agenten. Soll Regulatory Compliance auf Reasoning-Ebene durchsetzen. [arxiv](https://arxiv.org/abs/2604.00555)

- Neuro-Symbolische Rechtliche Adjudikation — Amortized Intelligence: Legale Texte einmal zu deterministischer DACL-Sprache kompiliert, reduziert Inference-Kosten dramatisch bei komplexen Verträgen. [arxiv](https://arxiv.org/abs/2605.02472)

- Opus 4.7 & GPT-5.5 Ankündigungen — Neue Modellversionen mit Preiserhöhungen; Claude Mythos und ChatGPT Images 2.0 erweitert Feature-Set. [Newsletter](https://simonwillison.net/2026/May/4/april-newsletter/)

### Sonstiges

- Multi-Agent RL via Orchestration Traces — RL optimiert nicht nur einzelne Agent-Aktionen, sondern auch Spawning, Delegation, Kommunikation und Aggregation in LLM-Teams. [arxiv](https://arxiv.org/abs/2605.02801)

- CBRS: Blood Donation Request Filtering — Bilinguales KI-System für Social-Media-Blutspende-Gesuche mit Dual-Layer-Filtering für Low-Resource-Settings. [arxiv](https://arxiv.org/abs/2604.16665)
▶ Top Playbooks Alle Playbooks →
Bereiche