MolmoSpaces es la apuesta a gran escala para que la próxima generación de IA pueda actuar en el mundo físico con sentido de generalidad. ¿Por qué importa esto? Porque entrenar robots solo en entornos controlados limita su capacidad de enfrentar la diversidad real: casas, oficinas, hospitales, museos y escenarios impredecibles.
¿Qué es MolmoSpaces?
MolmoSpaces es un ecosistema abierto para estudiar embodied learning a gran escala. Unifica más de 230.000 escenas interiores y 130.000 modelos de objetos, junto con más de 42 millones de poses de agarre 6-DoF, y herramientas para convertir, validar y evaluar todo en múltiples simuladores.
Formato base: MJCF con conversión a USD para portabilidad.
Compatibilidad: MuJoCo, ManiSkill y NVIDIA Isaac Lab/Sim.
Origen de assets: combinación curada de Objaverse y activos de la familia THOR.
MolmoSpaces busca ser una plataforma reproducible y extensible: puedes inspeccionar MJCF, regenerar grasps, añadir robots y comparar resultados en distintos motores físicos.
Física y simulación realista como base
A diferencia de simuladores que usan "magic grasps" (agarrar cuando el objeto entra en una esfera), MolmoSpaces prioriza motores físicos reales (por ejemplo MuJoCo) y parámetros validados.
Para objetos rígidos se verifica masa y densidad comparando con estimaciones anotadas por LLMs y ajustando densidades según sea necesario.
Para objetos articulados se usa una suite de teleoperación y un robot simulado (Franka FR3) afinado por identificación de sistema a partir de trayectorias reales.
Las colisiones y preparaciones de malla se anotan manualmente: colliders con CoACD, primitivos para muebles receptáculos, y descomposición convexa para objetos manipulables finos.
Estos pasos reducen artefactos como intersecciones, drifting y agarres irreales que complican la transferencia sim-to-real.
MolmoSpaces-Bench es un benchmark pensado para evaluar políticas generalistas bajo variaciones controladas. En lugar de un solo puntaje agregado, propone análisis distribucionales sobre ejes variados:
Propiedades de objetos: forma, tamaño, masa, articulación.
Layouts: multi-habitación, multi-piso, niveles de clutter.
Complejidad de tarea: de pasos atómicos a jerárquicos.
Condiciones sensoriales: iluminación, puntos de vista.
Dinámicas físicas: fricción, masa.
Semántica de la tarea: variaciones en la redacción de instrucciones.
Tareas incluídas: habilidades atómicas (pick, place, open, close), composiciones y objetivos que integran navegación. Esto permite, por ejemplo, estudiar la robustez de agarres frente a variaciones de masa o la fragilidad de prompts frente a cambios semánticos.
Assets y escenas a escala
El pipeline parte de 625.000 activos de Objaverse y aplica filtros rigurosos: metadatos completos, validación de objeto único, normalización de escala, calidad de textura (score >= 4), fidelidad cross-renderer (CLIP similarity >= 0.6), geometría eficiente (< 1.5 MB) y validación para ser receptáculo.
Resultado: ~129.000 activos curados (cerca de 3.000 synsets), divididos en train/val/test. De THOR se extrajeron y convirtieron 1.600+ objetos rígidos en 134 categorías y se añadieron numerosos objetos articulados (puertas, frigos, microondas, etc.) con anotación explícita de tipo de junta, eje y rango.
Las escenas provienen de iTHOR-120, ProcTHOR-10K, ProcTHOR-Objaverse, Holodeck y combinan:
Entornos hechos a mano y digital twins reproducidos manualmente.
Generación procedural heurística y asistida por LLM para diversidad.
Validaciones automáticas incluyen pruebas de movimiento (objetos rígidos deben moverse más de 2 cm ante fuerzas pequeñas), pruebas de articulación (mínimo 60% del rango) y detección de colisiones/drift. Más del 95% de escenas pasan estas pruebas. Además se generan mapas de ocupancia para ubicar inicios libres de colisión.
Grasps: 42 millones de poses y verificación robusta
MolmoSpaces incluye más de 42M de poses de agarre 6-DoF sobre 48.000+ objetos (hasta ~1.000 poses por objeto). La metodología clave:
Muestreo directo desde la geometría MJCF usando el modelo de pinza Robotiq-2F85.
Para objetos articulados se muestrea sobre componentes hoja (manijas) y se descartan agarres que colisionan con geometría no hoja.
Selección diversa: clustering en el espacio 6-DoF y selección uniforme entre clusters, con preferencias en puntos de contacto según el tipo de objeto.
Pruebas de robustez: perturbaciones lineales y rotacionales para rígidos; para articulados se exige factibilidad de actuado sobre al menos 70% del rango de junta manteniendo contacto.
Verificación final con una pinza flotante que intenta levantar y operar el objeto.
Las poses pueden inyectarse en las escenas vía un grasp loader y la plataforma incluye un pipeline de generación de trayectorias para crear demostraciones reproducibles y datasets de imitación.
Herramientas, compatibilidad y recolección de datos
Todo es modular y abierto: MJCF, grasps, parámetros físicos, materiales y metadatos. Herramientas incluidas:
Loaders y utilidades para cargar assets en distintos simuladores.
Script de conversión a USD para compatibilidad con Isaac Lab/Sim.
Soporte ManiSkill loader.
Interfaz de teleoperación para recolección de demostraciones con plataformas móviles como Teledex (incluso desde el teléfono).
La infraestructura admite distintos embodiments (single-arm, dual-arm) y controladores, facilitando comparaciones entre configuraciones.
¿Qué significa esto para investigación y productos?
MolmoSpaces da a la comunidad lo que muchos han pedido: datos, escenas y herramientas para variar factores uno a la vez a gran escala. Eso significa investigación más reproducible, diagnósticos finos de fallas out-of-distribution y mejores estudios de transferencia sim-to-real.
Para emprendedores y equipos aplicados, la plataforma reduce el costo de prototipado y permite evaluar algoritmos en situaciones más cercanas a la complejidad del mundo real. Para investigadores, facilita experimentos controlados sobre dimensiones físicas, sensoriales y semánticas.
Al final del día, controlar la diversidad de entrenamiento y medir generalización de forma sistemática nos acerca a robots que no solo aprenden tareas, sino que aprenden a adaptarse.
MolmoSpaces ya está disponible: assets, escenas, grasps, herramientas y pipelines para empezar a experimentar.