Google funde percepción y acción en Gemini 3.5 Flash: el agente que mira la pantalla deja de ser un modelo aparte

🕒 Publicado en Zendoric: 26 de junio de 2026 · 09:00

Google DeepMind integra de forma nativa el 'computer use' en Gemini 3.5 Flash, según su anuncio del 24 de junio de 2026. Un solo modelo ve, razona y actúa sobre interfaces. El cambio parece técnico, pero redefine el coste y la arquitectura de la automatización empresarial.

Hay anuncios que se leen como una mejora de producto y otros que, mirados de cerca, reordenan el tablero. La decisión de Google DeepMind de integrar la capacidad de 'computer use' directamente en Gemini 3.5 Flash —firmada por su Product Manager Mateo Quiros el 24 de junio de 2026— pertenece a la segunda categoría. Hasta ahora, controlar una interfaz gráfica requería un modelo independiente, Gemini 2.5 computer use. A partir de esta actualización, ver la pantalla, interpretarla y ejecutar acciones deja de ser un servicio aparte para convertirse en una herramienta nativa del mismo modelo que ya se usa de forma masiva para function calling y para grounding con Search y Maps.

El matiz no es menor. Fusionar razonamiento y percepción visual en un único modelo rápido y de bajo coste como Flash elimina la fricción de orquestar dos sistemas distintos: menos latencia, menos coste por tarea y un stack técnico más simple para cualquier equipo que construya agentes. En la práctica, hablamos de un modelo capaz de hacer clic, escribir, navegar entre pestañas y rellenar formularios como lo haría un operador humano, pero orientado a flujos 'long-horizon', esos procesos de muchos pasos encadenados que hoy consumen horas de trabajo. Google cita dos terrenos concretos: las pruebas de software continuas y el trabajo de conocimiento sobre aplicaciones profesionales.

La lectura empresarial es la que más conviene subrayar. Buena parte de las organizaciones siguen operando procesos críticos sobre aplicaciones de escritorio o sistemas web heredados que nunca tuvieron una API moderna. Para esos entornos, la automatización por visión de pantalla no es una opción elegante: es la única vía realista. Que esa capacidad viva ahora en un modelo barato y veloz convierte a Gemini 3.5 Flash en un candidato serio para ser el núcleo de agentes que operan sobre infraestructura legacy sin reescribirla.

Conviene, eso sí, no perder de vista el capítulo de seguridad, que Google aborda con un realismo saludable. Un agente que navega por la web real está expuesto al 'prompt injection' indirecto: instrucciones maliciosas escondidas en una página o un correo que intentan secuestrar su comportamiento. La compañía afirma haber aplicado entrenamiento adversarial específico para esta capacidad y ofrece dos salvaguardas opcionales para despliegues empresariales —la confirmación humana antes de acciones sensibles y la detención automática ante un intento de inyección detectado—, encuadradas en una filosofía de 'defensa en profundidad'. Es la respuesta correcta: ningún entrenamiento elimina el riesgo por completo, y combinarlo con sandboxing, control de accesos y supervisión humana es justamente lo que separa una demo vistosa de un sistema desplegable.

En el plano competitivo, el movimiento llega después de que Anthropic introdujera computer use en Claude a finales de 2024 y de que OpenAI desarrollara capacidades análogas. La diferencia que Google reivindica es la integración nativa frente al modelo separado. Si esa promesa se sostiene en producción, el verdadero salto no será tanto lo que un agente puede hacer, sino a qué coste y con qué fiabilidad puede hacerlo a escala. Y ahí, más que en ninguna demo, se jugará la adopción real.

Fuentes y referencias

blog.google — Google funde percepción y acción en Gemini 3.5 Flash: el agente que mira la pantalla deja de ser un modelo aparte