MolmoBot: manipulación robótica entrenada solo en simulación | Keryc
MolmoBot propone una idea provocadora pero práctica: ¿y si pudiéramos entrenar robots capaces de manipular objetos reales sin tocar ni un solo robot físico durante el entrenamiento? AllenAI presenta una suite completa entrenada exclusivamente en simulación que logra transferencia cero-shot a robots reales, y abre una discusión importante sobre cómo escalamos la robótica ahora que la percepción y el razonamiento ya avanzaron tanto.
Qué es MolmoBot y por qué importa
MolmoBot es una suite de políticas de manipulación robótica entrenadas completamente con datos sintéticos. No es solo un modelo: es todo el stack. AllenAI publica los datos de entrenamiento, las herramientas para generarlos (MolmoSpaces), el código de entrenamiento y un informe técnico para que otros reproduzcan y extiendan el trabajo.
¿Por qué esto cambia el juego? Porque la mayor limitación práctica en robótica ha sido la recolección manual y costosa de datos reales. Proyectos como Open X-Embodiment y DROID muestran la escala de ese problema: millones de trayectorias o cientos de horas de teleoperación. MolmoBot propone mover el cuello de botella a diseñar mejores mundos virtuales, algo que escala con cómputo y acceso abierto.
Cómo entrenaron todo en simulación
La receta central combina tres ingredientes concretos:
MolmoSpaces: una plataforma abierta para generación procedimental de entornos y trayectorias.
MolmoBot-Data: millones de trayectorias expertas sintéticas generadas con MuJoCo, fuerte randomización de dominio y actives variaciones en objetos, iluminación, texturas, cámaras y dinámica.
Entrenamiento con observaciones RGB únicamente y behavior cloning sobre esas trayectorias.
La estrategia es ambiciosa: en lugar de usar simulación como apoyo, la convierten en la única fuente de datos. Para cerrar la brecha sim2real apuestan por diversidad extrema en escenarios y sensores virtuales: cámaras completamente randomizadas, modelos de objetos tomados de iTHOR y Objaverse, y variaciones físicas agresivas.
Detalles técnicos relevantes
Motor de física: MuJoCo para simulaciones de contacto y manipulación realistas.
Señales usadas: durante el entrenamiento pueden generarse depth y metadatos privilegiados, pero las políticas aprenden solo de RGB, lo cual hace la transferencia más notable.
Supervisión: behavior cloning a escala, sin reforzamiento ni fine-tuning en el mundo real.
Arquitecturas y tareas
MolmoBot no es una sola red. Es una familia que cubre distintos tradeoffs de capacidad y cómputo:
MolmoBot: política principal basada en visión-lenguaje, construida sobre el backbone Molmo2. Procesa múltiples timesteps de RGB e instrucciones en lenguaje natural y obtiene las mejores métricas.
MolmoBot-SPOC: versión ligera adaptada del diseño SPOC, eficiente en parámetros y útil en entornos con menos cómputo.
MolmoBot-Pi0: usa el backbone PaliGemma con un head de acciones para comparar directamente con la familia π de Physical Intelligence.
Tareas evaluadas (en dos plataformas reales: Rainbow RB-Y1 y Franka FR3):
Pick-and-place (Franka FR3).
Manipulación de objetos articulados: cajones, microondas, puertas (RB-Y1).
Apertura de puertas y manipulación móvil (RB-Y1).
Las tareas se pueden especificar en lenguaje natural o con comandos puntuales tipo "pick", "place" o "close".
Resultados: cero-shot sim-to-real y comparaciones
Sin ajuste en el mundo real, MolmoBot transfiere a ambos robots y a objetos y escenas no vistas durante el entrenamiento. En pick-and-place supera a π0.5 (un modelo entrenado con datos reales a gran escala) y registra rendimiento competitivo con π0 bajo protocolos estandarizados.
También evaluaron robustez a cambios visuales no vistos: variantes de cámara, iluminación y hasta otro renderer en evaluación. Esas pruebas muestran que la escala y la diversidad sintética pueden compensar la falta de datos reales en muchas tareas de manipulación.
Limitaciones y preguntas abiertas
No todo está resuelto. Algunas limitaciones que conviene tener en cuenta:
Alcance de la transferencia: la suite demuestra que muchas tareas de manipulación cotidianas son alcanzables, pero no garantiza que toda condición real se cubra. Los casos límite y errores siguen siendo instructivos.
Física y contactos complejos: aunque MuJoCo es potente, ciertas interacciones finas con materiales deformables o comportamientos emergentes pueden necesitar mejores modelos físicos o validación real.
Definición de tareas y métricas: comparaciones entre papers son sensibles a criterios de éxito y a detalles de setup; AllenAI intenta igualar protocolos, pero no siempre es trivial.
¿Significa esto que la recolección real desaparece? No del todo. Significa que su rol cambia: en vez de ser la única fuente de supervisión, podrá usarse para fechar digital twins, validar y cerrar brechas puntuales.
Qué cambia para investigadores y emprendedores
Democratización: laboratorios con menos recursos pueden experimentar con manipulación real sin invertir en muchas horas de teleoperación.
Iteración rápida: generar mundos virtuales y reentrenar políticas es mucho más barato que montar flotas de robots y recopilar datos.
Investigación reproducible: publicar datos sintéticos, pipelines y código facilita replicar y comparar métodos.
Si trabajas en manipulación, sim-to-real o instrucción anclada en el mundo, MolmoBot te deja herramientas listas para probar en tu robot o en tu benchmark. Los autores además invitan explícitamente a encontrar los puntos débiles: esas fallas guiarán la siguiente generación.
MolmoBot no es la última palabra, pero sí una prueba potente de que la simulación, hecha a gran escala y con diversidad, puede desplazar la carga principal de la adquisición de datos. La conversación ahora se traslada a cómo diseñar virtualmente mundos ricos y variados, y a qué tanto podemos confiar en políticas entrenadas solo en simulación.