Cuando Ai2 lanzó Molmo apostó por algo concreto: la apertura. No solo pesos y código abiertos, sino modelos que puedas inspeccionar, adaptar y replicar. Esa apuesta ahora se convierte en un ecosistema que no solo ve, sino que también señala y actúa en el mundo digital y físico.
MolmoPoint: señalamiento cross-modal más eficiente
Señalar parece simple, ¿no? Pero para un modelo de visión y lenguaje (VLM) hacerlo bien es sorprendentemente difícil. La aproximación clásica convierte la coordenada X,Y en texto —un atajo indirecto y frágil— y exige datos y mezcla de entrenamiento muy finos.
MolmoPoint cambia el juego: en lugar de generar coordenadas como texto, el modelo selecciona directamente lo que ya ve. Primero elige una región gruesa y luego refina hasta el punto exacto. Es una solución cross-modal: el mismo mecanismo puede apuntar en imágenes, secuencias de video, o incluso hacia fragmentos de entrada en otros modos, como texto o audio.
¿El resultado? Saltos notables en eficiencia de entrenamiento y en métricas de referencia: mejor performance en pointing, detección de elementos en pantallas y tracking de objetos entre modelos abiertos comparables. Funciona mejor en alta resolución y en interfaces con muchos botones pequeños. MolmoPoint llega acompañado de variantes para imágenes, video y UI, y de datasets abiertos con miles de capturas de pantalla anotadas y tracks humanos.
Enseñar a un VLM a apuntar ya no requiere dedicar gran parte de la mezcla de entrenamiento solo a datos de pointing; esto abarata y agiliza entrenamientos futuros.
MolmoWeb: agentes visuales que interactúan con la web
MolmoWeb es una suite de agentes multimodales que, con un pantallazo y una instrucción, predicen la siguiente acción del navegador. No usan DOM ni árboles de accesibilidad: perciben la interfaz como lo hace una persona y manipulan con mouse y teclado.
¿Por qué trabajar con screenshots? Son más robustas ante cambios del sitio y más baratas de procesar: una imagen puede representar miles de líneas de código. La arquitectura aquí prioriza la percepción visual y la acción secuencial, y se entrena con una mezcla ganadora: datos sintéticos generados por LLMs, demostraciones humanas (la mayor colección pública reportada) y fine-tuning supervisado.
Los retos no son triviales: evaluar agentes es caro porque fallar en un paso puede romper toda la trayectoria. Por eso Ai2 desarrolló un eval harness unificado y herramientas de visualización de trayectorias para detectar inconsistencias entre generación de datos, entrenamiento y evaluación.
MolmoWeb supera a modelos de pesos abiertos comparables y, en su versión más capaz, iguala o supera agentes basados en modelos propietarios mucho más grandes como GPT-4o, pese a tener menos parámetros y entrenar solo con screenshots.
Bloques de construcción abiertos: de robótica a AR
MolmoPoint y MolmoWeb comparten el mismo backbone visual de Molmo 2 y la filosofía de apertura. Junto a MolmoBot, MolmoSpaces y WildDet3D, el ecosistema cubre señalamiento, interacción web, percepción 3D y manipulación física.
Eso tiene consecuencias prácticas: una universidad puede afinar MolmoPoint para seguimiento de conducta animal; un equipo en Edimburgo ya lo usó en marcos de debate multimodal y otro grupo usó la pipeline abierta para estudiar cómo los VLM comprenden relaciones espaciales. La apertura permite reproducibilidad y aceleración de investigación.
Implicaciones técnicas y prácticas
- Arquitectura y entrenamiento: backbone de visión compartido, fine-tuning supervisado con mezclas de datos sintéticos y humanos, y un enfoque de pointing basado en selección directa en lugar de salida textual.
- Datos y reproducibilidad: checkpoints, código, datasets y harnesses de evaluación públicos para que otros repliquen y mejoren resultados.
- Rendimiento: mejoras en eficiencia de entrenamiento y en tareas de alto detalle (UIs densas, tracking en video) frente a generaciones previas y modelos abiertos similares.
Técnicamente, esto significa menos dependencia de ajustes finos de mezcla y mayores ganancias al integrar tareas prácticas (p. ej. automatización web o manipulación robótica) desde el diseño del dataset hasta las métricas de evaluación.
¿Por qué importa para ti?
Porque estas tecnologías no son solo para labs grandes. Un agente visual fiable puede automatizar tareas repetitivas en la web, ayudar a personas con barreras digitales a navegar sitios complejos o permitir que un robot local identifique dónde agarrar un objeto con mayor precisión. Y como todo es abierto, el punto de innovación puede nacer en una startup, en una universidad pequeña o en un hobbyista con ganas de arreglar un problema concreto.
Molmo ya no es solo un modelo; es una colección de herramientas abiertas pensadas para que la comunidad mejore la forma en que las máquinas ven y actúan. ¿Qué proyecto podrías construir tú con estos bloques abiertos?
