MolmoWeb es la apuesta abierta para que la inteligencia multimodal deje de ser solo lectura de pantallas y pase a ejecutar acciones por ti en el navegador. ¿Te imaginas un agente que mira la misma página que tú, decide el siguiente paso y hace clic, escribe o desplaza la pantalla sin depender de APIs privadas? Eso es lo que anuncia Allen Institute con MolmoWeb, y lo liberan con modelos, datos y herramientas para que puedas reproducirlo y mejorarlo.
Qué es MolmoWeb
MolmoWeb es un agente visual para la web construido sobre la familia Molmo 2 en dos tamaños: 4B y 8B parámetros. Está pensado para desplegarse en entornos autohospedados, ya sea localmente o en la nube. El flujo es simple: recibe una instrucción en lenguaje natural, un screenshot del navegador y el historial de acciones, luego genera un pensamiento corto en lenguaje natural y la acción de navegador a ejecutar.
Las acciones soportadas incluyen navegar a URLs, hacer clic en coordenadas normalizadas, escribir en campos, desplazarse, abrir o cambiar pestañas y enviar mensajes de retorno al usuario. Al operar directamente sobre la vista del navegador, el agente actúa como lo haría una persona: interpreta la interfaz visual y responde a lo que ve.
Cómo funciona técnicamente
MolmoWeb no usa representaciones estructuradas como HTML para decidir acciones. En su lugar trabaja con screenshots, lo cual tiene ventajas prácticas: un screenshot consume muchos menos tokens que una página serializada, las interfaces visuales son más estables frente a cambios en el DOM, y resulta más fácil interpretar y depurar el razonamiento del agente.
El modelo sigue un loop look-decide-do: observa la pantalla, produce un thought en lenguaje natural que explica su razonamiento y emite la siguiente acción. Las coordenadas de clic se representan como valores normalizados y se convierten a píxeles al ejecutar la acción.
Importante desde el punto de vista técnico: MolmoWeb fue entrenado sin destilar desde agentes propietarios. Los datos provienen de trayectorias sintéticas generadas por agentes que usan árboles de accesibilidad y de demostraciones humanas.
MolmoWebMix: el dataset abierto
Uno de los aportes centrales es MolmoWebMix, un conjunto de datos abierto diseñado para entrenar agentes web multimodales. Combina:
Human demonstrations: 30 000 trayectorias humanas capturadas mediante una extensión de Chrome, con 590 000 subtareas en 1 100 sitios web. Es, hasta ahora, el mayor dataset público de ejecución humana en la web.
Synthetic trajectories: trayectorias generadas automáticamente usando agentes que operan sobre árboles de accesibilidad. Incluye ejecuciones individuales filtradas por éxito, pipelines multiagente que descomponen tareas y rutas deterministas explorando enlaces.
GUI perception data: datos para enseñar a localizar elementos en pantalla y resolver preguntas sobre screenshots. La porción de screenshot QA suma más de 2.2 millones de pares pregunta-respuesta extraídos de cerca de 400 sitios.
MolmoWebMix viene con herramientas de recolección, filtrado y un informe técnico que detalla metodología y criterios de limpieza.
Resultados y benchmarks
MolmoWeb se evaluó en cuatro benchmarks que requieren interacción con sitios vivos: WebVoyager, Online-Mind2Web, DeepShop y WebTailBench. Un juez basado en VLM determina si la tarea se completó.
Puntos clave de rendimiento:
MolmoWeb 8B alcanza 78.2% en WebVoyager, 42.3% en DeepShop y 49.5% en WebTailBench, superando a modelos abiertos líderes como Fara-7B.
El modelo 4B, pese a su tamaño, vence a Fara-7B en varias condiciones y mantiene ventaja aun con presupuestos de pasos limitados.
En grounding visual, un modelo dedicado de 8B entrenado con los datos de MolmoWeb supera a sistemas propietarios y abiertos en ScreenSpot y ScreenSpot v2.
Test-time scaling: lanzar múltiples rollouts independientes y elegir el mejor resultado aumenta mucho la fiabilidad. Por ejemplo, con pass@4 el 8B llega a 94.7% en WebVoyager y 60.5% en Online-Mind2Web, frente a 78.2% y 35.3% con un solo intento.
Estos resultados son notables porque compiten con agentes que usan representaciones más ricas o modelos mucho más grandes.
Limitaciones y seguridad
MolmoWeb tiene limitaciones claras que debes conocer:
Al ser puramente vision-based puede fallar al leer texto en screenshots.
Acciones incorrectas pueden descarrilar la ejecución, por ejemplo al desplazarse antes de que cargue el contenido.
Instrucciones ambiguas o con muchas restricciones reducen su rendimiento. Acciones complejas como drag-and-drop o scroll dentro de un elemento siguen siendo desafiantes.
No fue entrenado para manejar logins ni transacciones financieras por razones de seguridad y privacidad.
Las medidas de seguridad del demo hospedado incluyen una lista blanca de sitios, uso de la API Google Cloud Natural Language para filtrar consultas inseguras, verificación del tipo de campo antes de escribir y bloqueo de acciones en campos de contraseña o tarjeta. Esas restricciones aplican al demo, no al modelo en sí.
Qué puedes hacer con MolmoWeb hoy
Todo el stack se publica en Hugging Face y GitHub: pesos, dataset MolmoWebMix, herramientas de evaluación e una librería de inferencia para ejecutar localmente. El training code llegará pronto, lo que permite reproducir el pipeline completo.
Aplicaciones prácticas:
Automatizar tareas repetitivas del navegador en horarios fijos.
Ejecutar consultas templadas en múltiples sitios para monitoreo de precios o recopilación de información.
Encadenar pasos simples en workflows más largos donde cada paso parte del estado real del navegador.
Además, al ser open-source puedes fine-tunear el modelo con tus datos y adaptar el agente a casos de uso concretos. Para investigadores, la apertura del pipeline significa poder experimentar con nuevas arquitecturas, más datos o mejores mecanismos de seguridad.
Reflexión final
MolmoWeb no es la solución perfecta, pero representa un salto importante: pasar de modelos que solo describen la pantalla a modelos que actúan en ella, y hacerlo de forma abierta y reproducible. Abrir pesos, datos y herramientas acelera la investigación y facilita que la comunidad responda a las preguntas difíciles sobre seguridad, ética y normas de uso en la web.
¿Estamos listos para agentes que naveguen por la web en nuestro nombre? MolmoWeb nos da una base abierta para explorar esa respuesta con transparencia.