MolmoMotion: predicción 3D de movimiento guiada por lenguaje | Keryc
MolmoMotion propone algo que suena simple pero es poderoso: anticipar en 3D cómo se moverán puntos de un objeto a partir de una imagen, una instrucción en lenguaje y unos puntos de consulta. ¿Por qué importa eso? Porque anticipar es distinto a percibir: ver lo que ya pasó es útil, pero planear y generar necesitan saber qué viene.
Qué es MolmoMotion
MolmoMotion predice trayectorias 3D de puntos fijados a un objeto en un marco de mundo métrico. La entrada típica es:
una observación RGB (uno o unos pocos frames),
una descripción en texto de la acción (por ejemplo Move and rotate the wooden bowl with fruit on the table),
y un conjunto de puntos de consulta con sus posiciones 3D iniciales.
El modelo responde con la trayectoria futura de cada punto en coordenadas 3D, lista para alimentar un planificador robótico o condicionar un generador de video. Para enlazar visión y lenguaje usan Molmo 2 como columna vertebral, combinando tokens de imagen, tokens de texto y tokens de características 2D muestreadas desde el encoder visual.
Idea clave: representar movimiento como puntos 3D «pegados» al objeto. Es compacto, agnóstico a la clase del objeto y estable frente a cambios de cámara.
Representación y por qué escogieron puntos 3D
MolmoMotion usa una representación deliberada: un pequeño conjunto de puntos de superficie en el marco del mundo. Buscaban tres propiedades:
Class-agnostic: no dependen de plantillas (humanos, manos, objetos rígidos),
View-stable: la misma trayectoria física se mantiene entre vistas distintas,
Directamente utilizable: son trayectorias 3D que puede consumir un robot o un generador de video.
Esta representación describe movimiento rígido, articulado y, dentro de límites, deformable, sin suponer el tipo de objeto. Por ser compacta y explícita, evita el costo de renderizar full video cuando solo interesa la dinámica.
Arquitectura y variantes técnicas
MolmoMotion se apoya en Molmo 2. El flujo general:
Se codifican imágenes y texto en tokens.
Se extraen tokens de puntos 2D desde el encoder visual.
Se incorporan las coordenadas 3D iniciales de los puntos de consulta.
El modelo predice las coordenadas futuras por punto.
Entrenan dos variantes:
MolmoMotion-AR (autoregresivo): escribe coordenadas 3D como texto estructurado, paso a paso en orden temporal. Ventaja: rollouts suaves y mayor precisión cuando el futuro está bien definido. Es similar a la predicción de coordenadas que usan algunos VLMs.
MolmoMotion-FM (flow-matching): modela trayectorias en espacio continuo transformando ruido en movimiento. Mejor para incertidumbre y escenarios con múltiples futuros plausibles.
Técnicamente, AR favorece una condicionamiento secuencial fuerte; FM ofrece una distribución continua de trayectorias y captura multimodalidad.
Cómo crearon MolmoMotion-1M (pipeline de anotación)
El entrenamiento necesitaba datos que no existían: videos a gran escala con trayectorias 3D de puntos ancladas a objetos y pareadas con descripciones de acción. Construyeron una tubería automática que hace, a grandes rasgos:
Grounding del objeto a partir de la descripción y muestreo de puntos de consulta en su superficie.
Tracking de puntos 2D densos sobre el objeto.
Lifting de esas pistas 2D a un marco 3D métrico compartido (estimación de profundidad/pose).
Filtrado: eliminan tracks que no se mueven coherentemente, suavizan trayectorias y segmentan clips en ventanas donde el objeto realmente se mueve.
El resultado: MolmoMotion-1M, extraído de 1.16M de videos, con 1.16M clips anotados (la colección más grande de trayectorias 3D con descripciones de acción, según los autores), cubriendo 736 tipos de movimiento y 5.6K objetos distintos.
PointMotionBench: evaluación centrada en puntos 3D
Para medir rendimiento crearon PointMotionBench, un benchmark validado por humanos con 2.7K clips, 111 categorías de objetos y 61 tipos de movimiento. El protocolo es directo: se entrega la observación actual, los puntos de consulta y la descripción; la métrica evalúa cuán cercanas están las trayectorias predichas a la trayectoria real en 3D.
Resultados destacados:
MolmoMotion supera a métodos existentes: generadores de video en espacio de píxeles, métodos 3D paramétricos y una línea base de velocidad constante.
Cuando se usa para guiar generación de video, mejora la calidad del movimiento en las cinco métricas de movimiento que reportan, y vence a un modelo de imagen-a-video mucho mayor en cuatro de cinco métricas.
Aplicaciones en robótica y generación de video
MolmoMotion no es solo un laboratorio: aporta transferibilidad entre entornos. Tras fine-tuning en DROID (dataset grande de manipulación robótica), el modelo predice trayectorias sensatas para distintos objetos, vistas y tareas.
Un experimento de control muestra diferencias claras:
En simulación, una política controlada con MolmoMotion alcanza 76.3% de éxito en pick-and-place frente a 56.0% con la misma política basada en Molmo 2.
MolmoMotion aprende más rápido: llega a 51% tras 10K pasos, donde Molmo 2 llega a 19%.
En robots reales (después de fine-tuning), MolmoMotion alcanza el mismo error L2 que la línea base tras 12K pasos en solo ~2K pasos.
Además, al condicionar un generador de video con trayectorias 3D, se obtiene video que sigue instrucciones con más precisión, especialmente para movimientos pequeños o precisos.
Limitaciones prácticas
No es perfecto. Durante entrenamiento usan ocho puntos de consulta por objeto: suficiente para trayectorias útiles, pero insuficiente para representar densamente geometría de superficie o movimientos deformables complejos. Eso limita su manejo de deformaciones finas.
También hay desafíos de calidad en las anotaciones automáticas: profundidad y tracking ruidosos requieren filtrado y suavizado cuidadoso, y algunos tipos de movimiento siguen siendo difíciles de modelar con pocos puntos.
Qué puedes hacer ahora
Descargar pesos y datos: el equipo publica los pesos del modelo, el dataset MolmoMotion-1M y PointMotionBench para que los pruebes y los compares.
Usarlo en robótica: si trabajas en planning, las trayectorias 3D son input directo y aceleran el aprendizaje de políticas.
Condicionar generación de video: si buscas control fino sobre movimiento, usar MolmoMotion como guía mejora resultados frente a prompts de texto solos.
MolmoMotion es una pieza importante en el rompecabezas de anticipación física: lleva la predicción de movimiento a un formato 3D, genérico y útil para sistemas reales. ¿El siguiente paso? densificar las superficies, manejar deformaciones complejas y seguir cerrando la brecha entre predecir y actuar.