MolmoAct: IA abierta que razona en espacio 3D

4 minutos
ALLENAI
MolmoAct: IA abierta que razona en espacio 3D

Te imaginas una IA que piensa en tres dimensiones como tú y yo pensamos con mapas y bocetos? MolmoAct es justamente eso: un modelo que une percepción, planificación visual y control para razonar sobre acciones en espacio 3D y ejecutar comandos en hardware robótico. Esta iniciativa fue presentada por el Allen Institute for AI el 12 de agosto de 2025 y llega con código, modelos y datos abiertos para que cualquiera pueda comprobarlo y adaptarlo. (allenai.org, ar5iv.org)

Qué es MolmoAct y por qué importa

MolmoAct pertenece a una nueva clase llamada Action Reasoning Models (ARMs). En lugar de transformar instrucciones directamente en movimiento, MolmoAct sigue tres etapas encadenadas: primero crea perception tokens que incorporan información de profundidad y posición; luego genera waypoints visuales como plan intermedio; y finalmente decodifica esos waypoints en comandos de bajo nivel para actuadores. Esa separación hace al razonamiento más interpretable y transferible entre distintos robots. (allenai.org, ar5iv.org)

¿Por qué es relevante para ti? Porque muchos modelos actuales razonan principalmente con texto y fallan cuando hay que estimar distancias, colisiones o la dinámica de objetos. MolmoAct transforma la percepción en trazos visuales editables, lo que facilita que un humano corrija o guíe la planificación antes de dar órdenes al robot. (allenai.org)

Qué trae el lanzamiento

La entrega no es solo un paper: Allen Institute publica MolmoAct-7B (la versión inicial) junto a pesos, checkpoints, el dataset de entrenamiento y herramientas de evaluación. El conjunto MolmoAct Dataset contiene alrededor de 10,000 episodios robóticos en escenarios domésticos y está disponible públicamente para reproducir y mejorar los resultados. Los repositorios y paquetes están en GitHub y en Hugging Face bajo licencia Apache 2.0. (ar5iv.org, github.com, huggingface.co)

Si eres desarrollador o investigador, eso significa que puedes descargar modelos y datos, reproducir evaluaciones en simuladores como SimplerEnv, y fine-tunear MolmoAct para tu propio brazo robótico o humanoide. ¿Quieres probarlo rápido? AllenAI publicó checkpoints en Hugging Face y un repositorio con instrucciones para evaluación. (huggingface.co, github.com)

Rendimiento y eficiencia

MolmoAct-7B fue preentrenado con una mezcla de datos especializada y mid-trained en el dataset propio. Los autores reportan entrenamiento eficiente: preentrenamiento usando millones de ejemplos en clusters con GPUs H100 completándose en plazos sorprendentemente cortos en comparación con algunos competidores. En benchmarks de simulación como SimplerEnv y LIBERO, MolmoAct alcanza tasas de éxito que superan a varios modelos importantes, mostrando buena generalización fuera de distribución. (allenai.org, ar5iv.org)

En términos prácticos, eso significa que, con recursos moderados y el dataset abierto, equipos pequeños pueden replicar o adaptar comportamientos complejos sin depender exclusivamente de modelos cerrados o infraestructuras gigantes. ¿No es esto justo lo que necesitan startups y laboratorios académicos para avanzar? (ar5iv.org)

Control, interpretabilidad y seguridad

Una de las características más útiles es la traza visual de razonamiento: MolmoAct superpone en la imagen las trayectorias planificadas antes de ejecutar acciones reales. Eso permite intervención humana temprana y reduce riesgos en pruebas físicas. Además, el modelo acepta anotaciones manuales (por ejemplo dibujar una ruta en la pantalla) para guiar el comportamiento en tiempo real. Estas opciones facilitan auditorías y ajustes antes de mover hardware real. (allenai.org, github.com)

¿Qué significa para emprendedores y creadores?

Si trabajas en automatización, robótica de servicio, manufactura ligera o robots domésticos, MolmoAct ofrece una base práctica y abierta para:

  • Probar nuevas políticas de control usando perception tokens y waypoints visuales.
  • Acelerar prototipos con checkpoints disponibles en Hugging Face.
  • Evitar empezar desde cero porque el dataset y el código permiten reproducir entrenamientos y evaluaciones. (huggingface.co, github.com)

Pasos rápidos para empezar:

  1. Revisa el blog y el paper para entender la arquitectura y los benchmarks. (allenai.org, ar5iv.org)
  2. Descarga el modelo y el dataset desde Hugging Face y clona el repo en GitHub para reproducir los scripts. (huggingface.co, github.com)
  3. Ejecuta las evaluaciones en SimplerEnv y luego adapta con fine-tuning a tu robot real siguiendo las guías de seguridad. (github.com)

Lectura adicional y recursos

  • Blog oficial de AI2 sobre MolmoAct. Leer en AllenAI. (allenai.org)
  • Paper técnico y métricas detalladas en arXiv. [Ver arXiv]. (ar5iv.org)
  • Modelos y datasets en Hugging Face. [Explorar en Hugging Face]. (huggingface.co)
  • Repositorio oficial con licencia y scripts. [Ver en GitHub]. (github.com)

MolmoAct no es solo un avance técnico: representa un cambio de paradigma hacia modelos que integran la intuición espacial en el pipeline de toma de decisiones. ¿Listo para probar una IA que piensa con espacio y trazos visuales en lugar de solo con palabras? Prueba el modelo y coméntame qué experimentos te gustaría ver replicados en tu contexto.

¡Mantente al día!

Recibe guías prácticas, hechos verificados y análisis de IA directo en tu correo, sin jerga técnica ni rodeos.

Tus datos están a salvo. Darse de baja es muy fácil en cualquier momento.