Hace poco DeepMind presentó una nueva generación de modelos diseñados para que los robots no solo vean, sino que piensen, planifiquen y actúen en el mundo real. ¿Te suena a ciencia ficción? No tanto: son avances pensados para resolver tareas con varios pasos y contexto, algo que hoy es difícil para muchos robots.
Qué anunció DeepMind
DeepMind presenta dos piezas claves: Gemini Robotics 1.5
, un modelo vision-language-action (VLA) que convierte imágenes e instrucciones en comandos motores para robots, y Gemini Robotics-ER 1.5
, un modelo de razonamiento encarnado (VLM) que crea planes detallados y puede invocar herramientas digitales. Estos modelos buscan que los robots piensen antes de actuar y muestren parte de su proceso de decisión. (deepmind.google)
Además, Gemini Robotics-ER 1.5
ya está disponible para desarrolladores vía la Gemini API en Google AI Studio, mientras que Gemini Robotics 1.5
está disponible con socios seleccionados. Eso significa que la capa de razonamiento para robots llega primero para que los creadores la prueben y la integren. (deepmind.google)
Cómo funcionan estos modelos en palabras sencillas
Piensa en dos roles: uno que entiende y razona sobre la escena y las reglas, y otro que convierte esas decisiones en movimientos reales. Gemini Robotics-ER 1.5
actúa como el cerebro de alto nivel: analiza imágenes, planifica pasos, estima cuándo algo fue completado y puede llamar a herramientas online o a otros módulos para ejecutar acciones concretas. Gemini Robotics 1.5
(VLA) toma esa planificación y genera los comandos motores. Juntos, permiten ciclos de percepción, planificación y acción más coherentes. (developers.googleblog.com)
El modelo ER mejora en comprensión espacial y temporal: puede generar puntos 2D precisos para ubicar objetos en una imagen y razonar sobre lo que ocurre entre distintos momentos en un video. Eso facilita que un plan no sea solo una lista de pasos, sino una secuencia anclada en la realidad perceptual. (developers.googleblog.com)
Ejemplos prácticos que dejan de ser teoría
¿Un ejemplo concreto? Pide a un robot que separe residuos: el modelo puede buscar las reglas locales de reciclaje, identificar los objetos frente a él y planificar la secuencia para depositarlos en la papelera correcta. No es solo reconocer una botella, es entender la regla y ejecutar los pasos. (developers.googleblog.com)
Otros casos imaginables: organizar cajas en un almacén siguiendo prioridades, armar una estación de trabajo paso a paso, o asistir en tareas de laboratorio que requieran secuencias controladas. Eso sí, no estamos hablando de autonomía total; son herramientas para que diseñadores y operadores creen sistemas robotizados más capaces.
Limitaciones y seguridad
DeepMind incluye filtros de seguridad y mejoras para que los modelos reconozcan y se nieguen a generar planes que violen restricciones físicas, como exceder la carga útil de un robot. Aun así, estos sistemas requieren pruebas controladas: el mundo físico tiene variables inesperadas y la responsabilidad humana sigue siendo clave. (developers.googleblog.com)
También es importante recordar que Gemini Robotics 1.5
está todavía en despliegue limitado con socios, mientras que Gemini Robotics-ER 1.5
se ofrece en vista previa para desarrolladores, lo que refleja que la adopción práctica será gradual. (deepmind.google)
Si eres desarrollador o emprendedor, ¿qué puedes hacer ahora?
-
Prueba
Gemini Robotics-ER 1.5
en Google AI Studio y la Gemini API para explorar sus capacidades de razonamiento encarnado. Es una vía directa para experimentar con planificación y comprensión espacial. (developers.googleblog.com) -
Empieza con casos limitados y simulados antes de pasar al hardware real: integra la capa de razonamiento con tu pila de control y añade validaciones de seguridad explícitas.
-
Diseña métricas de éxito prácticas: precisión al apuntar, robustez en pasos multi etapa y capacidad para interrumpir o rectificar planes cuando algo falla.
Reflexión final
Este anuncio pone la IA de texto e imagen más cerca del mundo físico de lo que muchos esperan. ¿Significa que los robots harán todo por nosotros mañana? No. Significa que hoy tenemos modelos que entienden mejor el espacio, planean con más claridad y pueden integrarse en cadenas de software y hardware para resolver tareas reales. Si estás construyendo con robots, vale la pena mirar cómo estas piezas cambian lo que es posible, siempre con la seguridad y el control humano como prioridad.
Fuente principal: artículo de DeepMind y nota técnica para desarrolladores. Más detalles en el blog original de DeepMind y en la guía para desarrolladores en Google Developers Blog. (deepmind.google)
Enlaces útiles: