Live
Bring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIBuild Long-running AI agents that pause, resume, and never lose context with ADKMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLIBring state-of-the-art agentic skills to the edge with Gemma 4Supporting Google Account username change in your appDeveloper’s Guide to Building ADK Agents with SkillsADK Go 1.0 Arrives!Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and Ma...Announcing ADK for Java 1.0.0: Building the Future of AI Agents in JavaClosing the knowledge gap with agent skillsJump to play: Building with Gemini & MediaPipeBuild a smart financial assistant with LlamaParse and Gemini 3.1Developer’s Guide to AI Agent ProtocolsAnnouncing the Colab MCP Server: Connect Any AI Agent to Google ColabPlan mode is now available in Gemini CLIIntroducing Finish Changes and Outlines, now available in Gemini Code Assist extensions on...Unleash Your Development Superpowers: Refining the Core Coding ExperienceIntroducing Wednesday Build HourWhat's new in TensorFlow 2.21You can't stream the energy: A developer's guide to Google Cloud Next '26 in VegasHow we built the Google I/O 2026 Save the Date experienceSupercharge your AI agents: The New ADK Integrations EcosystemOn-Device Function Calling in Google AI Edge GalleryTorchTPU: Running PyTorch Natively on TPUs at Google ScaleGet ready for Google I/O: Livestream schedule revealedNew enhancements for merchant initiated transactions with the Google Pay APIBuild Better AI Agents: 5 Developer Tips from the Agent Bake-OffBuilding with Gemini Embedding 2: Agentic multimodal RAG and beyondProduction-Ready AI Agents: 5 Lessons from Refactoring a MonolithSubagents have arrived in Gemini CLIBuild Long-running AI agents that pause, resume, and never lose context with ADKMaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUsAgents CLI in Agent Platform: create to production in one CLI

KI Force — Die deutsche KI-Wissensreferenz

18 Anbieter · 123+ Quellen · 44974+ Artikel

★ Aktuell Alle News →

Bring state-of-the-art agentic skills to the edge with Gemma 4

Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...

Neueste Artikel Mehr ansehen →
• developers

ADK Go 1.0 Arrives!

The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...

▶ Tages-Digest — 12. Juni 2026 608 Artikel, 34 relevant
KI-Tagesüberblick 2026-06-12

### Highlights

1. Anthropic veröffentlicht Claude Fable 5 — Das neue Modell von Anthropic sorgt für polarisierte Reaktionen: Während einige es als Durchbruch zu AGI sehen, kritisieren andere die angebliche "Gatekeeping"-Politik des Unternehmens. Eine objektive Einordnung der tatsächlichen Fähigkeiten bleibt abzuwarten.

2. OpenAI erwägt Preissenkungen — Angesichts verstärkten Wettbewerbs durch Anthropic prüft OpenAI laut Wall Street Journal eine Reduktion seiner API-Preise, um Nutzer zu halten.

3. KI-Agenten in der Praxis: Hohe Ablehnungsquoten — Eine Analyse des AIDev-Datasets zeigt, dass 46,4% der von AI-Coding-Agenten (Copilot, Devin, Cursor, Claude) generierten Pull Requests abgelehnt werden — ein erheblicher Effizienzproblem.

### Modell-Updates

- Claude-Code v2.1.174 — Update mit verbesserter [Modellauswahl-Funktion](https://github.com/anthropics/claude-code/releases/tag/v2.1.174), Opus-Modell wird nun korrekt als eigene Option angezeigt.

### Forschung

Agentic AI & Evaluation:
- [Iterating Toward Better Search](https://arxiv.org/abs/2606.12924) — Framework für Evaluierung von konversationalen Shopping-Assistenten mit simulierten Buyer-Agenten
- [Shopping Reasoning Bench](https://arxiv.org/abs/2606.12608) — Erstes Benchmark für Multi-Turn-Shopping-Assistenten, das Geschäftslogik und Kundenpräferenzen kombiniert
- [GeoNatureAgent Benchmark](https://arxiv.org/abs/2606.12821) — Evaluation von LLM-Agenten für Umwelt- und Geospatial-Analysen mit echten APIs
- [DSAEval](https://arxiv.org/abs/2601.13591) — Benchmark mit 641 realen Data-Science-Problemen zur Evaluierung von Daten-Agenten
- [AgentBeats](https://arxiv.org/abs/2606.13608) — Standardisiertes, agentenunabhängiges Assessment-Framework für faire Agenten-Bewertung

Agent-Architektur & Self-Evolution:
- [Recursive Agent Harnesses](https://arxiv.org/abs/2606.13643) — Analyse der Rekursionsmuster in LLM-Agenten mit Sub-Agenten
- [SkillCAT](https://arxiv.org/abs/2606.13317) — Training-freie Methode zur Skill-Self-Evolution durch kontrastives Learning
- [Getting Better at Working With You](https://arxiv.org/abs/2606.13174) — Mechanismen zur Einhaltung von Nutzer-Korrektionen über Sessions hinweg (Mem0 zeigt 57,5% Fehlerquote)

Spezialisierte Agenten:
- [Agents-K1](https://arxiv.org/abs/2606.13669) — Wissensorchestration für wissenschaftliche Forschungs-Agenten
- [Parthenon Law](https://arxiv.org/abs/2606.04602) — Self-Evolving Framework für Jura-Agenten mit Domain-spezifischer Architektur
- [VISTA](https://arxiv.org/abs/2605.26144) — Benchmark für Web-App-Generierung aus visuellen Spezifikationen
- [Fantastic Scientific Agents](https://arxiv.org/abs/2606.12834) — AgentBuild-Ansatz für wissenschaftliche Workflows mit Scientist-authored Contracts

Sicherheit & Evaluation:
- [One Token to Fool LLM-as-a-Judge](https://arxiv.org/abs/2507.08794) — Kritische Sicherheitslücke: LLM-basierte Reward-Modelle sind anfällig für Reward-Hacking durch oberflächliche Manipulationen

### Tools & Infrastruktur

- [Cloudflare Data Loss Prevention](https://developers.cloudflare.com/changelog/post/2026-06-11-custom-ai-prompt-topics/) — Custom Topics für AI-Prompt-Schutz ermöglichen Detection proprietärer Konzepte über Standard-Kategorien hinaus

### Sonstiges

- Bildungs-KI: [GenAI Assessment Graders](https://arxiv.org/abs/2606.12422) — LLM-basierte Bewertungssysteme für standardisierte schulische Leistungsbewertung mittels Context Engineering

---

Fazit: Die Woche zeigt Bewegung im agentengetriebenen KI-Markt mit Fortschritten bei Evaluierungsmethoden, aber auch praktischen Limitierungen (hohe Ablehnungsquoten, Sicherheitslücken). Die intensive Entwicklung von Benchmarks deutet auf ein erkanntes Evaluierungs-Defizit hin.
▶ Top Playbooks Alle Playbooks →
Bereiche