★ Aktuell
Google DeepMind has launched Gemma 4, a family of state-of-the-art open models designed to enable multi-step planning and autonomous agentic workflows directly on-device. The release includes the Google AI Edge Gallery for experimenting with "Agent Skills" and the LiteRT-LM libra...
• google
• developers
Google has updated its account settings to allow U.S. users to change their @gmail.com usernames while keeping all exist...
• developers
The Agent Development Kit (ADK) SkillToolset introduces a "progressive disclosure" architecture that allows AI agents to...
• developers
The launch of Agent Development Kit (ADK) for Go 1.0 marks a significant shift from experimental AI scripts to productio...
• developers
The newly introduced continuous checkpointing feature in Orbax and MaxText is designed to optimize the balance between r...
• developers
Google has released version 1.0.0 of the Agent Development Kit (ADK) for Java, introducing powerful new features like Go...
• google
To bridge the gap between static model knowledge and rapidly evolving software practices, Google DeepMind developed a "G...
• google
The provided workflow streamlines motion-controlled game development by using Gemini Canvas to rapidly prototype mechani...
• google
This blog post introduces a workflow for extracting high-quality data from complex, unstructured documents by combining ...
▶ Tages-Digest — 04. Mai 2026
329 Artikel, 17 relevant
KI-Tagesüberblick 2026-05-04
### Highlights
1. Chinesisches Modell Kimi K2.6 übertrifft Claude, GPT-5.5 und Gemini im Coding-Benchmark — Das Open-Weights-Modell Kimi K2.6 hat in einer Programmier-Challenge führende proprietäre Modelle geschlagen. Der Fund generiert intensive Diskussionen in der Community (295 Punkte auf Hacker News) und deutet auf Fortschritte bei Open-Source-Alternativen hin.
2. Multimodale Modelle im Computer-Vision-Benchmark unter Lupe — Eine umfassende [Studie auf arXiv](https://arxiv.org/abs/2507.01955) evaluiert GPT-4o, Gemini 2.0, Claude 3.5 Sonnet und weitere auf Standard-CV-Tasks wie semantische Segmentation und Objekterkennung, zeigt jedoch Grenzen jenseits von Question-Answering auf.
3. DeepClaude: Claude-Agent-Loop um 17x günstiger mit DeepSeek V4 Pro — Ein [Open-Source-Projekt](https://github.com/aattaran/deepclaude) demonstriert, dass Claude-ähnliche Agentenarchitekturen durch kostengünstige Alternative Modelle repliziert werden können, ohne wesentliche Leistungseinbußen (179 Punkte HN).
4. Xiaomi MiMo-V2.5-Pro: Autonome KI-Agenten für stundenlange Aufgabenbearbeitung — Xiaomis neues Open-Weight-Modell konkurriert mit Anthropics Claude Opus bei Coding-Tests und bietet Extended-Thinking-Fähigkeiten für lange, autonome Arbeitsflows.
5. Sicherheitsrisiken in Patient-facing Medical RAG Chatbots identifiziert — Eine [Fallstudie](https://arxiv.org/abs/2605.00796) dokumentiert Privacy- und Security-Vulnerabilities bei medizinischen Chatbots und warnt vor unzureichenden Governance-Controls bei AI-gestützter Entwicklung.
### Modell-Updates
- Kimi K2.6 (China): Übertrifft in Coding-Challenges proprietäre Konkurrenz
- MiMo-V2.5-Pro (Xiaomi): Open-Weight-Modell mit Extended Thinking für autonome Agenten
- Claude Opus 4.7: Erwähnt in Sicherheits-Diskussionen um Code-Leaks
### Tool & System-Releases
- DeepClaude: Agent-Loop-Framework mit kostengünstigen Backbone-Modellen ([GitHub](https://github.com/aattaran/deepclaude))
- InfantAgent-Next: Multimodale Generalist-Agent-Architektur mit Tool- und Vision-Integration ([arXiv](https://arxiv.org/abs/2505.10887))
- SAGA: GPU-Cluster-Scheduler für KI-Agent-Workflows mit Latenz-Reduktion um 3-8x ([arXiv](https://arxiv.org/abs/2605.00528))
### Forschung
- [LLM-as-Judge-Verbesserung](https://arxiv.org/abs/2604.13717): Ensemble-Scoring und Kalibrierungstechniken für kostengünstige Evaluationen
- [Agent-basierte Hardware-Optimierung](https://arxiv.org/abs/2603.25719): Allgemeine Coding-Agenten für High-Level-Synthesis ohne spezifisches Training
- [RAG für Chartered Accountancy](https://arxiv.org/abs/2605.00257): Retrieval-Augmented Reasoning für komplexe, jurisdiktionsspezifische Finanzaufgaben
- [Social Bias in LLM-generierten Code](https://arxiv.org/abs/2605.00382): SocialBias-Bench mit 343 Aufgaben zur Messung demografischer Fairness
- [Cross-Document RAG mit hierarchischen Bäumen](https://arxiv.org/abs/2605.00529): Skalierbare Tree-RAG-Methoden für Multi-Hop-Questions
### Business & Security
- Anthropic vs. KI-Leaks: Aktive Reaktion auf Claude-Code-Leaks dokumentiert
- ask.com Einstellung: Suchdienst wird endgültig eingestellt
- Jailbreak-Sicherheit: [Analyse zeigt](https://arxiv.org/abs/2605.00267), dass hochmoderne Jailbreaks bei leistungsstarken Modellen ohne "Jailbreak-Tax" funktionieren
### Sonstiges
- NASA testet neuen Antrieb für Marsflüge
- KI-Agent löscht versehentlich Firmendaten (Warnfall)
- Apple entfernt kleinsten Mac mini
Bereiche