Gemini 3 Flash integra Agentic Vision y ejecución de código | Keryc
La visión en los grandes modelos ya no es solo una mirada estática. Con Agentic Vision en Gemini 3 Flash, Google convierte la comprensión de imágenes en un proceso activo: el modelo piensa, actúa y vuelve a observar, ejecutando código para inspeccionar y manipular imágenes paso a paso. ¿Por qué importa esto para ti como desarrollador o profesional? Porque reduce suposiciones, aporta evidencia visual verificable y mejora la precisión en tareas complejas.
Qué es Agentic Vision
Agentic Vision introduce un bucle Think, Act, Observe que transforma la tarea visual en una investigación automática.
Think: el modelo analiza la consulta y la imagen inicial para formular un plan multi paso.
Act: genera y ejecuta Python para manipular imágenes (recortar, rotar, anotar) o para analizarlas (contar, medir, calcular).
Observe: las imágenes transformadas se agregan a la ventana de contexto; el modelo vuelve a inspeccionar con más información antes de dar la respuesta final.
Este enfoque mezcla razonamiento visual con ejecución determinista, reduciendo la probabilidad de que el modelo adivine cuando faltan detalles finos.
Hito clave: habilitar ejecución de código con Gemini 3 Flash entrega una mejora consistente del 5-10% en calidad en la mayoría de benchmarks de visión.
Cómo funciona técnicamente
La idea central es que el modelo no se quede en una sola pasada. Cuando detecta inseguridad sobre un detalle, genera instrucciones en forma de código que se ejecutan en un entorno Python controlado. Ese entorno puede:
Recortar y reescalar regiones de interés para un nuevo vistazo con más resolución.
Dibujar anotaciones y cajas sobre píxeles para crear un "scratchpad visual" verificable.
Ejecutar cálculos deterministas (por ejemplo, sumar, normalizar, plotear datos) con bibliotecas como numpy o matplotlib.
Las imágenes resultantes se anexan al contexto del modelo, permitiendo nuevas inferencias con base en evidencia visual actualizada. Eso reduce errores en tareas multi paso, porque la parte numérica o de dibujo no depende de la probabilidad del lenguaje, sino de la ejecución real del código.
Aspectos técnicos relevantes:
El loop Think, Act, Observe requiere una ventana de contexto capaz de almacenar múltiples imágenes transformadas.
La ejecución de código se realiza en un sandbox determinista para reducir variabilidad y facilitar reproducibilidad.
Hay un tradeoff entre precisión y latencia: inspecciones iterativas mejoran calidad, pero aumentan tiempo y costos de computo.
Agentic Vision en acción: tres casos claros
1. Zoom e inspección iterativa
Cuando el modelo detecta un detalle fino, puede recortar y reanálisis la región. Un ejemplo real: PlanCheckSolver.com mejoró su exactitud en 5% al permitir que Gemini 3 Flash genere Python para recortar secciones de planos arquitectónicos y analizarlas iterativamente. Esa evidencia visual (los recortes) se vuelve parte del contexto y fundamenta la decisión final.
2. Anotación visual como "scratchpad"
En vez de describir lo que ve, el modelo puede dibujar bounding boxes y etiquetas sobre la imagen para verificar conteos o ubicaciones. Eso evita errores de conteo (por ejemplo, dedos en una mano) porque la respuesta final está basada en píxeles anotados verificables.
3. Matemática visual y visualización
Problemas con tablas densas o cálculos multi paso suelen llevar a alucinaciones en LLMs. Gemini 3 Flash genera y ejecuta código que normaliza datos, realiza cálculos y crea gráficos con matplotlib. El resultado es reproducible: en lugar de confiar en una respuesta probabilística, tienes una gráfica y números producidos por código determinista.
Consideraciones prácticas para desarrolladores (technical)
Si vas a integrar Agentic Vision en tus productos, ten en cuenta:
Seguridad y sandboxing: la ejecución de Python debe aislarse para evitar acceso no deseado a archivos o red.
Latencia y costo: cada ciclo Act/Observe añade pasos de ejecución; mide impacto en experiencia y facturación.
Tokens y contexto: adjuntar múltiples recortes aumenta uso de la ventana de contexto; planifica límites y estrategia de truncado.
Determinismo: la ejecución de código reduce la aleatoriedad del razonamiento, pero debes versionar dependencias y entornos para reproducibilidad.
Supervisión humana: en dominios sensibles (salud, legal, infraestructura) mantén un flujo de revisión humana.
Prompt engineering: diseñar prompts que le indiquen cuándo generar código implícito vs. cuándo esperar una instrucción explícita.
Integración y prácticas recomendadas
Empieza por habilitar Code Execution en Google AI Studio o Vertex AI y prueba la demo en AI Studio Playground.
Diseña pipelines que limiten recortes a regiones de alto valor para controlar latencia.
Loggea cada artefacto (crops, scripts generados, outputs) para auditoría y debugging.
Implementa timeouts y límites de recursos en el sandbox para evitar ejecuciones costosas o infinitas.
Qué sigue y límites actuales
Google apunta a hacer más comportamientos implícitos (por ejemplo, rotaciones o matemáticas visuales sin nudges explícitos), añadir herramientas externas (búsqueda web, reverse image search) y extender Agentic Vision a otros tamaños de modelo. Pero no es una solución mágica:
Sigue habiendo riesgo de errores si la imagen original es demasiado pobre o el plan generado es incorrecto.
El balance entre automatización y control humano es crítico en aplicaciones de alto riesgo.
¿Te imaginas automatizar inspecciones, auditorías visuales o análisis científico con evidencia pixel a pixel? Agentic Vision abre esa puerta, pero la implementación práctica exige diseño cuidadoso.