MolmoAct 2: modelo abierto que acelera la robótica real | Keryc
MolmoAct 2 llega como un paquete completo: modelo, datos y herramientas para que la comunidad estudie y mejore cómo los robots actúan en el mundo físico. ¿Por qué importa? Porque escribir emails o depurar código es ya rutina para la IA, pero lograr que un robot cargue un lavaplatos o prepare muestras en un laboratorio durante horas sigue siendo uno de los retos más prácticos y urgentes.
Qué es MolmoAct 2 y por qué importa
MolmoAct 2 es la evolución abierta del primer Action Reasoning Model. No es solo un modelo con mejores números: está diseñado para razonar en 3D antes de actuar, correr mucho más rápido en tiempo real y venir acompañado de recursos abiertos (pesos, datasets y un pipeline VLA mejorado) para que tú o tu equipo puedan reproducir, investigar y adaptar el sistema.
MolmoAct 2 ofrece inferencia hasta 37x más rápida que su versión anterior y trae el mayor dataset bimanual abierto publicado hasta la fecha.
Si trabajas en robótica, automatización de laboratorios o simplemente te interesa ver IA en el mundo físico, esto cambia la conversación: no es un prototipo cerrado sino una base que puedes estudiar y extender.
Arquitectura clave y novedades técnicas
MolmoAct 2 no es un ajuste menor de su antecesor. Parte de Molmo 2-ER, una variante especializada en razonamiento embebido que se entrenó con ~3 millones de ejemplos de razonamiento visual y espacial: apuntado en imágenes, detección de objetos, razonamiento espacial multiimagen y preguntas espaciales sobre video. Esa columna vertebral hace al modelo mucho mejor en tareas que requieren entender la geometría y la correspondencia entre vistas.
El sistema combina esa VLM razonadora con un "action expert" que genera acciones vía flow matching, conectado por un puente de caché tipo KV-cache para mantener coherencia entre percepción y control. Además publican un tokenizador de acciones 100% abierto, MolmoAct 2-FAST Tokenizer, una reimplementación de FAST entrenada con sus datos.
MolmoAct 2 introduce también una arquitectura de adaptadores en el pipeline VLA para facilitar la integración y el estudio, y un mecanismo llamado adaptive-depth reasoning que decide cuándo predecir tokens de profundidad para no desperdiciar cómputo.
MolmoAct 2-Think y la profundidad selectiva
Para tareas que requieren 3D explícito, MolmoAct 2-Think añade tokens de profundidad. Pero en lugar de predecir profundidad para cada parche de imagen, el sistema enfoca la predicción en regiones donde hay cambios dinámicos. El resultado: un 17% de speedup frente a predecir profundidad en todos los parches, manteniendo la calidad del razonamiento 3D cuando importa.
Datos: MolmoAct 2-Bimanual YAM y la mezcla de datasets
El equipo publica MolmoAct 2-Bimanual YAM, con más de 720 horas de demostraciones bimanuales coordinadas: doblar toallas, escanear compras, cargar un teléfono y limpiar mesas, entre otras. Es el mayor dataset bimanual open-source hasta la fecha y supone 30 veces más datos robóticos que los usados en MolmoAct original.
Además, combinaron este dataset con mezclas de SO-100/SO-101 (brazos open-source), DROID Franka filtrado, datos de Google Robot BC-Z y Fractal, Bridge WidowX y el propio conjunto doméstico de MolmoAct. También mejoraron las etiquetas de lenguaje reanotando demostraciones con una VLM abierta, expandiendo las etiquetas únicas de ~71K a ~146K.
Rendimiento: simulación, zero-shot y adaptación
En benchmarks de razonamiento embebido, Molmo 2-ER promedia 63.8/100 en 13 pruebas (apuntado, correlación ego-exo, razonamiento espacial en video), superando a sistemas como GPT-5 y Gemini 2.5 Pro en esos tests.
En simulación doméstica (MolmoBot) MolmoAct 2 alcanza 20.6% de éxito, aproximadamente el doble que π0.5. En RoboEval, orientado a manipulación bimanual continua, puntúa 0.443 frente a 0.405 de π0.5.
En pruebas zero-shot en un brazo Franka las cifras son palpables: tareas como poner una manzana en un plato llegan a 100% de éxito; tareas precisas como insertar una pipeta alcanzan 86.7%. En promedio MolmoAct 2 logra 87.1% de éxito frente a 48.4% del MolmoBot anterior y 45.2% de π0.5.
Tras post-entrenamiento, en la suite LIBERO MolmoAct 2 llega a 97.2% y MolmoAct 2-Think a 98.1% de éxito promedio, mejoras de alrededor de 10 a 11 puntos respecto a la versión anterior.
Un benchmark independiente de Cortex AI evaluó cinco políticas bimanuales y colocó a MolmoAct 2 en primer lugar con 0.51, superando a alternativas como OpenVLA-OFT y π0.5 y ganando en 7 de 8 tareas del set.
Latencia y capacidad de respuesta
La velocidad en robots reales cambia la experiencia: una llamada de acción toma ~180 ms en el modelo base y ~790 ms cuando se activa el razonamiento adaptativo profundo. Para comparar, la versión original requería ~6700 ms en un entorno de benchmark con una NVIDIA H100. Esto separa un robot que parece detenerse entre movimientos de uno que reacciona en tiempo casi real.
Despliegue y pilotos en el mundo real
Para facilitar adopciones publican un setup de referencia: dos brazos YAM, una cámara Intel RealSense D435 cenital, dos D405 para vistas cercanas, un soporte extensible y una mesa sencilla. Eso ayuda a reproducir experimentos tabletop y trabajo bimanual sin empezar desde cero.
MolmoAct 2 ya se ha probado en pilotos con socios académicos. En el Cong Lab de Stanford, el modelo ayuda en pasos repetitivos de experimentos CRISPR, moviendo muestras y operando equipo de banco. No reemplaza experticia humana, pero permite automatizar operaciones rutinarias y acelerar flujos de trabajo que consumen tiempo.
También realizaron pruebas internas de robustez: instrucción reescrita, objetos desplazados, distractores y sustituciones. Esas pruebas muestran hasta qué punto el modelo sigue la intención humana cuando la escena cambia.
Limitaciones y oportunidades de investigación
MolmoAct 2 es potente, pero no perfecto. Aún falla cuando la propia garra obstruye la cámara, cuando la latencia del control es menor que la capacidad de respuesta del modelo, o en manipulaciones extremadamente finas. Las trazas visuales 2D de operador pueden introducir errores en el eje de profundidad.
Estas limitaciones son exactamente el motivo para abrir el sistema: modelos, datos y pronto código de entrenamiento son herramientas para que la comunidad investigue soluciones a problemas prácticos como oclusión, latencia y control fino.
MolmoAct 2 está pensado para ser estudiado, replicado y mejorado. Si trabajas con robots, automatización de laboratorios o interfaces físico-digitales, tener acceso a pesos, datasets y un pipeline abierto acelera la investigación y reduce la fricción para despliegues reales.
Piensa en esto así: ya no solo miramos modelos que "funcionan en laboratorio"; tenemos una base abierta para empezar a cerrar la brecha entre investigaciones controladas y robots útiles en entornos reales.