★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 24. Juni 2026
542 Artikel, 19 relevant
KI-Tagesüberlick 2026-06-24
### Highlights
1. LLM-basierte Such-Agenten anfällig für Manipulation — [SearchGEO-Framework](https://arxiv.org/abs/2606.16821) zeigt, dass LLM-Search-Agenten manipulierte Web-Inhalte als glaubwürdige Empfehlungen weitergeben. Die Studie definiert eine fünfteilige Angriffstaxonomie und misst die Anfälligkeit von Claude und ChatGPT.
2. KI-Agenten in Code-Repositories massiv verbreitet — [Analyse von 180 Millionen Git-Repositories](https://arxiv.org/abs/2606.24429) detektiert erstmals systematisch KI-Coding-Agenten durch Multi-Layer-Framework (Config-Analyse, Commit-Messages, Bot-Signaturen). Zeigt unsichtbare Durchdringung der Open-Source-Supply-Chain.
3. Kausalschlussfolgerung in LLMs nicht robust — [Studie zur "Causal Caution"](https://arxiv.org/abs/2606.24370) belegt: LLMs unterdrücken Vorsicht bei unzureichenden Daten, wenn Hilfeleistung überwiegt — problematisch in Entscheidungsunterstützungsrollen.
4. IPO-Due-Diligence jetzt evaluierbar — [Finance Agent v2 erweitert](https://arxiv.org/abs/2606.23032) auf IPO-Szenarien über SEC-Filings hinaus. Benchmark für Anthropic Claude und OpenAI ChatGPT bei komplexeren Finanztasks mit verbessertem Retrieval-Ansatz.
5. SpaceX wird zur GPU-Cloud — [Latent Space Report](https://www.latent.space/p/ainews-spacex-is-already-a-28byr) dokumentiert drittes GPU-Rental-Deal für SpaceX (mit Reflection AI). Entwicklung zur $28B/Jahr-Infrastruktur für KI-Workloads.
### Modell-Updates
- Claude Code v2.1.187: Neue Sicherheitsfeatures — `sandbox.credentials` blockiert Sandboxed-Befehle vom Lesen von Credential-Dateien und Secret-Variablen. Organisationsweite Modell-Beschränkungen hinzugefügt.
- Claude Agent SDK TypeScript v0.3.187: Entsprechende Sicherheitsintegration für Sandbox-Credentials.
### Tool-Releases & Frameworks
- SHERLOC: Training-freier Localization-Framework für Code-Repair-Agenten — strukturierte Diagnosefindung statt nur File-Retrieval, spart 50% des Budgets durch bessere Fehlerlokalisation.
- VISTA-Benchmark: End-to-End-Evaluierung von Web-App-Generierung aus visuellen Specs — fokussiert auf UI-zentrische Entwicklung statt reine Algorithmus-Tasks.
- LemonHarness: Framework zur Workspace-State-Verwaltung bei mehrrundigen LLM-Agent-Tasks — explizite Grenzen für File-Operationen und Artifact-Management.
### Forschung
- Agentic Data Analysis Evaluation: [Studie zur Grader-Zuverlässigkeit](https://arxiv.org/abs/2606.24839) — automatische Bewertung von Multi-Output-Systemen (Code, Numerik, Diagnose) erfordert neue Metriken jenseits von End-to-End-Erfolg.
- Agent-Memory-Systeme: [Analyse von Datenverwaltung](https://arxiv.org/abs/2606.24775) — bisherige Evaluierungen unzureichend, echte Speicher-Features (Persistenz, Lifecycle-Governance) noch nicht systematisch gemessen.
- Agent-Definition kritisch hinterfragt: [Philosophische Analyse](https://arxiv.org/abs/2606.23991) trennt Automation von echter Agency — warnt vor unbegründeter "Agent"-Labelung von LLM-Tools.
- Transformer-Taxonomie: [Umfassende Review](https://arxiv.org/abs/2606.24331) von Anthropic, OpenAI, Mistral über Encoder-only bis Long-Context-Modelle.
### Business & Community
- Anthropic Account-Bans kontrovers: [HN-Thread](https://news.ycombinator.com/item?id=48641160) dokumentiert Claude-Code-Sperrungen wegen VPN-Nutzung bzw. Kartenduplikation — generische Support-Antworten ohne Lösungsweg.
---
Datengrundlage: Top 20 von 542 gesammelten Quellen mit Relevanz-Scores. Fokus auf methodische Fortschritte bei Agent-Evaluation, Security-Issues und Infrastruktur-Trends.
Bereiche