Gemini 3.5 Flash: Google-KI steuert Browser und Apps eigenständig
26.06.2026 - 18:37:00 | boerse-global.de
Googles neueste KI-Generation kann Bildschirme lesen, Mausbewegungen ausführen und eigenständig durch Browser und Apps navigieren. Das Modell Gemini 3.5 Flash betritt damit Neuland – und stellt die Konkurrenz vor Herausforderungen.
Die Zeiten, in denen Künstliche Intelligenz nur Text ausspuckte, sind endgültig vorbei. Mit der Einführung nativer „Computer Use“-Fähigkeiten für Gemini 3.5 Flash befähigt Google seine KI, direkt mit digitalen Umgebungen zu interagieren. Seit Anfang dieser Woche im öffentlichen Vorschau-Modus verfügbar, kann das Modell Bildschirme beobachten und Aktionen in Browsern, auf dem Desktop und mobilen Oberflächen ausführen.
Automatisierte Navigation per Screenshot-Analyse
Das neue Werkzeug arbeitet in einem Kreislauf aus Beobachten, Denken und Handeln – basierend auf Echtzeit-Bildschirmaufnahmen. Durch die Analyse visueller Daten führt Gemini 3.5 Flash Aufgaben wie Klicken, Scrollen und Tippen aus. Das System nutzt normalisierte Koordinaten, um sich präzise in verschiedenen Umgebungen zurechtzufinden.
Die Integration unterstützt mehrere Plattformen: Webbrowser über Playwright und mobile Systeme über den Android Debug Bridge. Entwickler können zudem ein „Intent“-Feld nutzen, das bei der Fehlersuche während der Automatisierung hilft. Google hat die Funktionen mit seinen bestehenden Diensten Search und Maps verknüpft – das Modell kann also externe Daten abrufen, während es auf dem Bildschirm des Nutzers arbeitet.
Leistungssprung im Benchmark-Vergleich
Während die technologische Entwicklung rasant voranschreitet, schafft die EU mit dem AI Act nun den rechtlichen Rahmen für den Einsatz solcher Systeme. Dieser kostenlose Download verschafft Ihnen den Überblick über Fristen, Pflichten und Risikoklassen, den Ihre Rechts- und IT-Abteilung jetzt dringend braucht. EU AI Act in 5 Schritten verstehen
In aktuellen Branchentests zeigte das aktualisierte Modell deutliche Fortschritte bei der automatisierten Aufgabenerledigung. Im OSWorld-Benchmark erreichte Gemini 3.5 Flash einen Wert von 78,4 Punkten. Damit übertrifft es den Vorgänger Gemini 3 Flash (65,1) und GPT-5.4 mini (72,1) deutlich.
Die Leistung liegt auf Augenhöhe mit anderen Branchengrößen: Sonnet 4.6 erzielte ebenfalls 78,4 Punkte, GPT-5.5 liegt mit 78,7 knapp vorn. Spitzenreiter Claude Opus 4.8 erreichte 83,4 Punkte. Google positioniert die Flash-Variante als schnelle, kosteneffiziente Lösung – mit einer Verarbeitungsgeschwindigkeit von rund 289 Tokens pro Sekunde.
Verfügbarkeit und Sicherheitskonzept
Die Computer-Steuerung ist über die Gemini-API für Prototypen sowie über Vertex AI und die Enterprise Agent Platform für den Produktionseinsatz verfügbar. Zu den ersten Anwendern zählen Firmen wie UiPath, Browserbase und Browser Use. Das Modell arbeitet mit einem Kontextfenster von einer Million Tokens – die Preise liegen bei 1,50 Euro pro Million Input-Tokens und 9 Euro pro Million Output-Tokens.
Die neuen Fähigkeiten autonomer KI-Agenten werfen komplexe regulatorische Fragen auf, die Unternehmen nicht ignorieren dürfen. Dieser kostenlose Report klärt auf, welche KI-Systeme künftig als Hochrisiko gelten und was Unternehmen jetzt konkret tun müssen, um rechtlich auf der sicheren Seite zu sein. Kostenlosen KI-Umsetzungsleitfaden herunterladen
Um Sicherheitsrisiken autonomer Agenten zu begegnen, setzt Google auf eine mehrschichtige Verteidigungsstrategie. Dazu gehören adversarielles Training und konfigurierbare Sicherheitsrichtlinien in sieben Kategorien. Eine Prompt-Injection-Erkennung kann Aufgaben automatisch stoppen, wenn schädliche Anweisungen erkannt werden.
Die Forscher betonen die Bedeutung des „Human-in-the-Loop“-Prinzips – besonders bei sensiblen Vorgängen, bei denen das System eine explizite Nutzerbestätigung verlangen kann. Weitere empfohlene Sicherheitsmaßnahmen für Entwickler sind Sandboxing, Eingabebereinigung und Allow-Listen, um die Reichweite des Agenten zu begrenzen. Diese Vorkehrungen adressieren Bedenken von Google DeepMind, wonach KI-Agenten manipuliert werden könnten, um unautorisierte Finanztransaktionen auszulösen.
