MolmoPoint mejora el pointing en modelos visión-lenguaje

MolmoPoint propone cambiar la forma en que los modelos visión-lenguaje indican lugares en una imagen o video. ¿Qué pasa si, en lugar de obligar al modelo a escribir coordenadas como texto, lo dejas apuntar directamente sobre su propia representación visual? Eso es justo lo que hace MolmoPoint, y trae ganancias claras en precisión, eficiencia y robustez.

Qué es MolmoPoint y por qué cambia el pointing

Grounding o pointing es clave: sin él, un modelo solo describe imágenes; con él, puede decir exactamente dónde está algo. Piensa en un robot que necesita agarrar una taza, un asistente que debe señalar un botón en una app, o un sistema que cuenta objetos en video. MolmoPoint no pide coordenadas en texto. En vez de eso, permite que el modelo seleccione partes de sus propias características visuales.

La idea central es simple pero poderosa: usar tokens de grounding que actúan como consultas sobre las representaciones internas visuales del modelo. Esto evita que el modelo aprenda un sistema de coordenadas artificial, reduce la cantidad de tokens de salida y mejora la estabilidad cuando la resolución cambia.

Qué es MolmoPoint y por qué cambia el pointing

Qué es MolmoPoint y por qué cambia el pointing

Arquitectura y detalles técnicos

Embeddings rotatorios y parada explícita

Ventajas a nivel técnico

Modelos y datos

Evaluación y resultados (resumen técnico)

Por qué esto importa para aplicaciones reales

Reflexión final

Fuente original

¡Mantente al día!

MolmoPoint mejora el pointing en modelos visión-lenguaje