Gemini 3.5 Flash steuert Computer jetzt eigenständig
Gemini 3.5 Flash erhält eine integrierte Computersteuerung für KI-Agenten. So können Anwendungen selbstständig Aufgaben auf verschiedenen Geräten ausführen.

Google integriert die bisher separate Computersteuerung direkt in Gemini 3.5 Flash und erweitert damit die Fähigkeiten des KI-Modells deutlich. Entwickler benötigen dadurch kein zusätzliches Modell mehr und können Anwendungen einfacher automatisieren.
Die neue Funktion ermöglicht KI-Agenten, Browser, Desktop-Programme und mobile Anwendungen eigenständig zu bedienen. Gleichzeitig soll das Modell Aufgaben erkennen, planen und plattformübergreifend ausführen können.
Zusätzlich erweitert Google die Sicherheitsmechanismen für den Unternehmenseinsatz und schützt besser vor möglichen Angriffen auf KI-Agenten. Wie «ComputerBase» berichtet, gehören Nutzerbestätigungen und zusätzliche Schutzmassnahmen künftig zum Sicherheitskonzept.
Gemini 3.5 Flash übernimmt die Computersteuerung
Statt fester Programmabläufe analysiert die KI Benutzeroberflächen anhand von Bildschirmaufnahmen und erkennt eigenständig den jeweiligen Zusammenhang. Anschliessend klickt sie Schaltflächen an, füllt Formulare aus oder übernimmt wiederkehrende Dateneingaben.
Auch komplexe Arbeitsabläufe lassen sich mit einem einzigen Befehl starten und anschliessend automatisch im Hintergrund ausführen. Das soll Entwicklern die Erstellung leistungsfähiger Software-Agenten deutlich erleichtern.
Zusätzlich erhält Chrome 149 eine Funktion zum schnellen Erfassen von Bildschirmausschnitten für KI-Anfragen. «Schmidtis Blog» zufolge gelangen markierte Inhalte dadurch ohne Zwischenschritte direkt in den Prompt.
Neue Einsatzmöglichkeiten für Entwickler
Gemini 3.5 Flash eignet sich unter anderem für Softwaretests, Wissensarbeit und weitere automatisierte Unternehmensprozesse. Die Computersteuerung funktioniert dabei auf Computern, Browsern und Smartphones gleichermassen.

Im OSWorld-Benchmark erreicht das Modell bessere Ergebnisse als mehrere konkurrierende KI-Systeme und verbessert sich gegenüber seinem Vorgänger deutlich. Entwickler erhalten die Funktion ausserdem über die Gemini API und die Enterprise Agent Platform.
Wie «The Decoder» berichtet, stehen zusätzlich eine Demo-Umgebung und eine Referenz-Implementierung für erste Projekte bereit. Damit soll der Einstieg in die Entwicklung autonomer KI-Agenten deutlich einfacher gelingen.
















