Gemini 2.5 Computer Use: IA que controla navegadores

6 oct 20254 minutos

Google DeepMind presenta una versión de Gemini que no solo responde texto, sino que puede interactuar con interfaces como tú lo haces: haciendo clic, escribiendo en formularios y navegando páginas para completar tareas. ¿Suena a asistente automático de verdad? Exacto, pero con límites y medidas de seguridad integradas desde el inicio. (blog.google)

Qué anunció DeepMind

La apuesta se llama Gemini 2.5 Computer Use, una variante especializada construida sobre Gemini 2.5 Pro. Está disponible en vista previa a través de la API de Gemini y los entornos de Google para desarrolladores, como Google AI Studio y Vertex AI. Esto significa que empresas y desarrolladores pueden empezar a crear agentes que controlen navegadores y apps móviles orientadas a UI. (blog.google)

Cómo funciona en palabras sencillas

La pieza clave es el nuevo computer_use tool dentro de la API. El flujo es un bucle: el modelo recibe tu instrucción, un pantallazo (screenshot) del entorno y el historial de acciones recientes; decide una acción (por ejemplo click, escribir o arrastrar) y la envía como una respuesta en forma de llamada a función. Luego la aplicación ejecuta esa acción, devuelve una nueva captura y el modelo continúa hasta que la tarea termina o se detiene por seguridad o decisión del usuario. (blog.google)

¿Y para qué sirve ese bucle en la vida real? Para todo lo que no tiene una API limpia: llenar formularios en sitios con login, organizar elementos en aplicaciones web, pruebas automatizadas de interfaz y más. DeepMind mostró demos que van desde registrar datos en un CRM hasta mover notas en una pizarra virtual. (blog.google)

Casos de uso concretos

UI testing: automatizar pruebas que antes requerían scripts muy específicos o intervención humana.
Asistentes personales: pedir a tu agente que gestione reservas o rellene formularios por ti, respetando confirmaciones para acciones sensibles.
Automatización de flujos: migración de datos entre herramientas que no tienen integraciones oficiales.

Empresas como Browserbase ya ofrecen entornos demo para ver el modelo en acción, y Google menciona que equipos internos ya usan versiones de este modelo en proyectos como Project Mariner y agentes de testing. (blog.google)

Rendimiento y comparativas

Según las evaluaciones publicadas por Google y pruebas de terceros, Gemini 2.5 Computer Use supera alternativas líderes en varios benchmarks de control web y móvil, y además ofrece baja latencia al ejecutar las acciones. Esto lo posiciona como una opción potente para tareas que requieren interacción visual con interfaces. Ten en cuenta que la información viene de las pruebas que Google y socios divulgaron públicamente. (blog.google)

Seguridad, límites y recomendaciones prácticas

Controlar un navegador expone riesgos únicos: intentos de abuso por usuarios malintencionados, inyecciones de prompts a través de contenido web y errores inesperados al interactuar con interfaces diseñadas para humanos. Google integró medidas de seguridad como un servicio de evaluación por paso que revisa cada acción propuesta y las system instructions para forzar confirmaciones en acciones de alto riesgo. Además, el modelo no está pensado para control a nivel de sistema operativo; está optimizado para navegadores y, en menor medida, para UIs móviles. (blog.google)

Las recomendaciones claves para desarrolladores: probar exhaustivamente en entornos controlados, forzar confirmaciones en acciones sensibles y usar los controles de seguridad que ofrece la API.

Cómo puedes comenzar hoy

Si eres desarrollador, la puerta de entrada es la vista previa pública en la API de Gemini vía Google AI Studio o Vertex AI. También puedes probar demos en entornos como Browserbase para entender mejor las capacidades y limitaciones antes de integrar el modelo en producción. Google publica documentación y guías para armar el bucle de interacción con Playwright o en máquinas virtuales para pruebas. (blog.google)

Una mirada práctica y responsable

¿Te imaginas pedirse a un agente que rellene solicitudes, organice una pizarra de trabajo o haga tests complejos mientras tú te concentras en decisiones de negocio? Es plausible hoy. Al mismo tiempo, esto exige responsabilidad: pruebas, supervisión y diseño de guardrails para evitar automatizaciones peligrosas.

La tecnología avanza rápido, pero tú decides cómo usarla. Si desarrollas algo con esto, empieza en un entorno cerrado, documenta los flujos y piensa desde el primer día en cómo el agente pide confirmaciones cuando puede afectar datos sensibles o dinero.

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.