MolmoMotion: predice movimiento 3D guiado por lenguaje | Keryc
MolmoMotion es un modelo que anticipa cómo se moverán objetos en 3D a partir de una imagen, puntos marcados en la superficie y una instrucción en lenguaje natural.
¿Para qué sirve esto? Piensa en un robot que tiene que tomar una taza: no solo necesita verla, sino imaginar cómo se moverá la taza al agarrarla. MolmoMotion predice trayectorias de puntos 3D en el mundo real que luego pueden alimentar planificación robótica o modelos que generan video coherente en movimiento.
Qué es MolmoMotion
MolmoMotion transforma una observación RGB, una lista de puntos de consulta sobre un objeto y una instrucción (por ejemplo, "Mover y girar el bol de madera con frutas") en trayectorias futuras de esos puntos en coordenadas 3D métricas.
La idea central es representar movimiento de forma compacta y útil: no renderizas video completo, sino que predices cómo se desplazan puntos anclados al objeto en un marco de mundo compartido. Eso facilita que otras máquinas —robots, simuladores, generadores de video— usen directamente la predicción.
Cómo funciona (Under the hood)
MolmoMotion usa Molmo 2 como columna vertebral para conectar lenguaje, visión y puntos 3D. El flujo general es:
Identificar el objeto referido por la instrucción dentro del fotograma.
Localizar los query points iniciales y su posición 3D.
Condicionar la predicción en el historial corto de video y la instrucción en lenguaje.
Generar la trayectoria futura de cada punto en el marco del mundo.
Representación de movimiento
La representación son puntos 3D atados al objeto. Elegimos esto por tres propiedades claras:
Class-agnostic: no depende de plantillas para humanos o tipos de objetos.
View-stable: la misma trayectoria física se mantiene coherente frente a cambios de cámara.
Directamente utilizable: las trayectorias van a sistemas de control o modelos generativos sin conversión compleja.
Un conjunto disperso de puntos puede describir objetos rígidos, articulados y, hasta cierto punto, deformables.
Variantes del modelo
Entrenan dos variantes con objetivos distintos:
MolmoMotion-AR (autoregresivo): escribe coordenadas en formato estructurado similar a cómo los VLMs generan texto de coordenadas. Al predecir paso a paso se favorecen rollouts suaves y se logra la mayor precisión cuando el futuro es relativamente determinista.
MolmoMotion-FM (flow-matching): transforma ruido en movimiento continuo 3D, ideal para capturar incertidumbre cuando una instrucción admite varios futuros plausibles.
Datos: MolmoMotion-1M y PointMotionBench
Para entrenar el modelo crearon MolmoMotion-1M, un conjunto con 1.16 millones de videos y 3D point tracks alineados a descripciones de acción. Eso implicó una tubería automática que:
Groundea el objeto referido y muestrea puntos de consulta.
Traquea puntos 2D y los eleva a un marco 3D métrico.
Filtra trayectorias inestables, suaviza y recorta los intervalos donde el objeto realmente se mueve.
Además publican PointMotionBench, un benchmark human-validated con 2.7K clips para evaluar precisión en forecasting de movimiento 3D centrado en objetos.
Resultados: benchmarking y tareas downstream
En PointMotionBench, MolmoMotion supera a métodos existentes en predicción de trayectorias 3D. Como referencia, la variante MolmoMotion-AR con 3 frames de entrada alcanza un error medio por desplazamiento 3D de 0.109 m, frente a 0.129 m de los competidores más cercanos en ciertos splits.
¿Por qué importa esto en la práctica? Porque la predicción mejora tareas reales:
Robótica: tras fine-tuning en datos de manipulación (DROID), una política de control basada en MolmoMotion llega a 76.3% de éxito en tareas de pick-and-place frente a 56.0% con el mismo controlador pero inicializado con Molmo 2. Además aprende mucho más rápido: 51% de éxito a 10K pasos vs 19% para el otro inicializador.
Generación de video: usar las trayectorias de MolmoMotion para guiar un generador mejora la calidad de movimiento y la coherencia temporal. En pruebas, la combinación DaS + MolmoMotion mejora métricas como temporal consistency y subject consistency frente a modelos de imagen-a-video mucho mayores.
Estos resultados muestran que lo aprendido sobre cómo se mueven físicamente los objetos generaliza entre dominios: desde videos de internet hasta control robótico y generación condicionada.
Limitaciones y próximos pasos
MolmoMotion usa ocho puntos de consulta por objeto durante el entrenamiento. Eso es suficiente para pronosticar trayectorias útiles, pero no basta para una representación densa de la geometría de superficie. En la práctica esto limita su manejo de deformaciones complejas.
Además, como cualquier método aprendido, depende de la cobertura y calidad de los datos: escenas muy raras o acciones no representadas pueden degradar la predicción.
A futuro, ampliar la densidad de puntos, mejorar la modelización de deformables y combinar incertidumbre multimodal con control seguro son rutas naturales.
MolmoMotion no es solo un nuevo número en un benchmark. Es una pieza práctica para que máquinas dejen de ser solo observadoras y empiecen a anticipar. Eso cambia cómo diseñamos robots, cómo controlamos simulaciones y cómo ponemos movimiento consistente en video generado. Y lo mejor: Ai2 libera los pesos, el dataset y el benchmark para que la comunidad los mejore y los use en producción.