MolmoPoint propone cambiar la forma en que los modelos visión-lenguaje indican lugares en una imagen o video. ¿Qué pasa si, en lugar de obligar al modelo a escribir coordenadas como texto, lo dejas apuntar directamente sobre su propia representación visual? Eso es justo lo que hace MolmoPoint, y trae ganancias claras en precisión, eficiencia y robustez.
Qué es MolmoPoint y por qué cambia el pointing
Grounding o pointing es clave: sin él, un modelo solo describe imágenes; con él, puede decir exactamente dónde está algo. Piensa en un robot que necesita agarrar una taza, un asistente que debe señalar un botón en una app, o un sistema que cuenta objetos en video. MolmoPoint no pide coordenadas en texto. En vez de eso, permite que el modelo seleccione partes de sus propias características visuales.
La idea central es simple pero poderosa: usar tokens de grounding que actúan como consultas sobre las representaciones internas visuales del modelo. Esto evita que el modelo aprenda un sistema de coordenadas artificial, reduce la cantidad de tokens de salida y mejora la estabilidad cuando la resolución cambia.
Arquitectura y detalles técnicos
MolmoPoint introduce un mecanismo coarse-to-fine construido alrededor de tres tokens especiales: <PATCH>, <SUBPATCH> y <LOCATION>.
- Primero, el modelo atiende sobre tokens visuales para elegir un parche grueso (
<PATCH>). - Luego refina esa selección a un subparche más fino usando características de niveles inferiores (
<SUBPATCH>). - Finalmente, predice una ubicación dentro del subparche con
<LOCATION>.
Ese flujo conecta la salida de pointing directamente con embeddings visuales internos, en vez de traducir todo hacia coordenadas textuales externas.
Embeddings rotatorios y parada explícita
MolmoPoint usa embeddings rotatorios para codificar la distancia entre parches candidatos y el parche previamente seleccionado. ¿Por qué? Eso ayuda a mantener un orden consistente y evita que el modelo haga doble-pointing en el mismo sitio.
También incorpora una clase de "no-more-points" que le permite al modelo indicar que ya no hay más puntos relevantes, en lugar de verse forzado a escoger otro parche.
Ventajas a nivel técnico
- Menos tokens de salida por punto: baja de 8 tokens a 3 tokens por punto.
- Más robusto a cambios de resolución, porque el pointing se hace sobre las mismas embeddings visuales que usa para reconocimiento.
- Aprendizaje más rápido y más fácil: en configuraciones pequeñas, MolmoPoint supera al baseline con solo 8,192 ejemplos de entrenamiento.
Modelos y datos
AllenAI publica tres modelos principales y dos recursos de datos clave:
- MolmoPoint-8B: general para imágenes y video.
- MolmoPoint-GUI-8B: especializado en interfaces de software (pantallas, apps, web).
- MolmoPoint-Vid-4B: optimizado para video.
Datos nuevos:
- MolmoPoint-GUISyn: dataset sintético de ~36,000 capturas de pantalla en alta resolución con más de 2 millones de puntos anotados (promedio 54 puntos por imagen). Se generó pidiendo a un LLM producir HTML que simula software real, renderizando con Playwright y extrayendo bounding boxes por elemento.
- MolmoPoint-TrackData: ampliación de Molmo2-VideoPoint con tracks anotados manualmente y tracks sintéticos con oclusiones y dinámicas de movimiento complejas.
Todo el código, modelos y datos se lanzan como open source.
Evaluación y resultados (resumen técnico)
MolmoPoint se evalúa contra benchmarks de imágenes, GUI y video. Resultados destacados:
- PointBench (habilidades de pointing y razonamiento espacial): MolmoPoint-8B alcanza 70.7% de accuracy promedio, frente a 68.7% de Molmo 2 (8B).
- PixMo-Points: 89.2 F1 para MolmoPoint-8B, versus 85.2 para Molmo 2 (8B).
- GUI grounding: MolmoPoint-GUI-8B logra 61.1 en ScreenSpot-Pro y 70.0 en OSWorldG, liderando entre modelos completamente open.
- Video counting/pointing: MolmoPoint-8B gana en métricas de conteo y vence en evaluaciones de preferencia humana el 59.1% de las veces (excluyendo empates). MolmoPoint-Vid-4B alcanza 58.7 close-accuracy en Molmo2-VideoCount.
- Tracking: MolmoPoint-8B logra state-of-the-art en MeViS y mejora +5.7 J&F en Molmo2-Track respecto a Molmo 2 (8B).
Los estudios de ablación muestran que los grounding tokens son responsables de la mayor parte de la mejora, mientras que los nuevos datos de tracking expanden la robustez a más tipos de objetos y escenas.
Por qué esto importa para aplicaciones reales
¿En qué se traduce todo esto fuera del laboratorio? En mejores interacciones y menos trabajo de ingeniería para integrar modelos multimodales:
- Robots: señalar partes precisas de un objeto para agarrarlo con seguridad.
- Agentes que automatizan software: identificar y pulsar el elemento exacto en una interfaz sin fallar por diferencias de resolución.
- Video analytics: seguir y contar objetos de forma más confiable, incluso con oclusiones y movimiento complejo.
- Interfaces conversacionales multimodales: el modelo puede mostrar exactamente a qué se refiere, sin ambigüedad.
Además, la idea no es exclusiva de lo visual. En teoría, el mismo esquema de "tokens de grounding" podría aplicarse a tokens de audio o texto para apuntar dentro de esos dominios.
MolmoPoint sugiere que tratar el pointing como selección de embeddings internos es una abstracción más natural y práctica que convertir todo a coordenadas textuales. Eso simplifica el aprendizaje, reduce costos de tokenización de salida y mejora la precisión.
Reflexión final
MolmoPoint no solo presenta números mejores en benchmarks; cambia la convención sobre cómo los modelos deben conectar lenguaje y visión. Es una lección clara: a veces, dejar que el modelo use sus propias redes internas para señalar es más efectivo que obligarlo a hablar en un lenguaje externo artificial. Para desarrolladores y equipos que trabajan con aplicaciones que requieren grounding preciso, MolmoPoint ofrece una alternativa abierta, más simple y con mejor rendimiento.
