El Allen Institute for AI (Ai2) publicó el 18 de agosto de 2025 un nuevo benchmark llamado MoNaCo pensado para evaluar cómo los modelos de lenguaje enfrentan preguntas reales que requieren razonar sobre decenas o cientos de documentos. ¿Por qué importa esto ahora que todos hablan de LLM
y recuperación de información? Porque MoNaCo pone el foco en lo que sigue siendo difícil para la IA. (allenai.org)
Qué es MoNaCo
MoNaCo (More Na tural and Co mplex questions) reúne 1,315 preguntas escritas por personas que simulan búsquedas reales y que requieren muchos pasos intermedios para resolverse. Las respuestas no están escondidas en una sola página: las soluciones implican combinar información de docenas, y a veces cientos, de páginas de Wikipedia. (allenai.org)
Además, cada pregunta viene con una cadena de razonamiento anotada por humanos (gold-standard reasoning chains). Es decir, los autores entregan no solo la respuesta final, sino los pasos intermedios y las evidencias (sentencias y tablas) que sustentan cada paso. Eso convierte a MoNaCo en una herramienta útil tanto para evaluar modelos como para entrenar sistemas que necesiten justificar sus respuestas. (allenai.org)
Qué midieron y qué encontraron
Ai2 probó 15 modelos de vanguardia en MoNaCo (entre ellos GPT-5, o3, Claude Opus 4, Gemini 2.5 Pro y Deepseek-R1) y los resultados dejaron claro que los modelos aún tienen problemas con este tipo de preguntas. El mejor modelo en su experimento, o3, alcanzó un F1
de 61.2% y completó perfectamente solo 38.7% de los ejemplos. En palabras simples: incluso los más fuertes fallan con frecuencia cuando la tarea exige muchas pruebas y síntesis. (allenai.org)
Cuando los evaluadores dieron a los modelos todas las evidencias correctas (escenario "Oracle retrieval"), el desempeño subió alrededor de 10 puntos, pero aún así los modelos llegaron solo a 58.7% F1
. Y en el escenario de RAG de extremo a extremo con un buscador BM25 real, el rendimiento cayó drásticamente por problemas de recuperación y robustez. Es decir, el problema no es solo razonar bien: también es encontrar la evidencia adecuada. (allenai.org)
Datos que muestran por qué esto es duro
En MoNaCo, cada pregunta se apoya en muchas páginas: en promedio 43.3 documentos por pregunta (mediana 12). Las evidencias son mixtas: oraciones, tablas y listas; en particular las tablas son una gran parte del material de soporte. También hay 40K preguntas booleanas y más de 90K subpreguntas intermedias anotadas. Todo esto hace que el conjunto sea amplio y exigente con la capacidad de un modelo para descomponer tareas y combinar hechos heterogéneos. (allenai.org)
Un ejemplo concreto: una pregunta sobre si los partidos de izquierda en países europeos están más frecuentemente encabezados por mujeres que los de derecha requiere revisar cientos de páginas (el ejemplo citado implica el equivalente de 719 páginas de Wikipedia). ¿Te imaginas hacerlo a mano? Para un LLM
también es un reto enorme. (allenai.org)
Qué significa esto para productos y desarrolladores
- Para productos tipo buscador o asistentes que usan
RAG
: no basta con tener un buen modelo; hace falta un recuperador robusto y formas de filtrar evidencia parcial. - Para investigadores: las cadenas de razonamiento humanas de MoNaCo son valiosas para entrenar y auditar modelos que deben justificar respuestas.
- Para usuarios y empresas: las respuestas de los
LLM
pueden parecer rápidas, pero en tareas complejas aún necesitas ver las evidencias y verificar pasos intermedios antes de confiar plenamente en la respuesta. (allenai.org)
Cómo acceder y seguir adelante
MoNaCo está disponible públicamente y Ai2 comparte el benchmark junto con la página del proyecto y el artículo asociado (paper y recurso en HuggingFace). Es una invitación abierta a la comunidad para evaluar modelos, mejorar recuperadores y construir sistemas más atribuibles y factuales. (allenai.org)
MoNaCo nos recuerda algo importante: la IA ya es buena en atajos, pero las preguntas largas y con muchas fuentes siguen siendo terreno de investigación activa.
¿Te interesa probarlo o quieres que te explique cómo usar MoNaCo para evaluar un modelo o un sistema de recuperación? Puedo guiarte paso a paso.