Imagina que le preguntas a un modelo: "¿El café es bueno para ti?". ¿Qué responde el modelo si no sabe si estás embarazada, si tienes hipertensión o si necesitas una respuesta breve y práctica? Esa falta de contexto hace que muchas evaluaciones de modelos de lenguaje sean injustas o poco útiles.
Qué proponen y cómo funciona
El Allen Institute for AI (Ai2) propone un protocolo llamado Contextualized Evaluations: en lugar de presentar preguntas vagas sin contexto, se generan pares de preguntas y respuestas de seguimiento que simulan la información que un usuario podría aportar en una conversación real. Esto permite que tanto los modelos como los evaluadores trabajen con el mismo escenario y criterios. (allenai.org)
Para generar ese contexto Ai2 usa grandes modelos de lenguaje con prompts sencillos y luego valida las opciones con humanos. Según su estudio, la mayoría de las preguntas generadas fueron consideradas importantes y las respuestas alternativas realistas, completas y diversas. Eso significa que es posible crear contextos plausibles de forma automática y escalable. (allenai.org)
Cómo lo probaron
Diseñaron tres escenarios de evaluación para ver el impacto del contexto:
- Evaluación estandar sin contexto para nadie. Esto es lo habitual en muchos leaderboard.
- Evaluación con contexto solo para el evaluador, no para el modelo, para ver las suposiciones implícitas del modelo.
- Evaluación adaptativa donde modelo y evaluador comparten el mismo contexto.
Ejecutaron comparaciones pareadas entre modelos populares en 1,881 consultas y recogieron juicios de evaluadores humanos y automatizados. (allenai.org)
Qué encontraron y por qué importa
Los resultados tienen consecuencias prácticas claras:
-
Mayor acuerdo entre evaluadores y cambios en el ranking. Al añadir contexto, la concordancia entre juzgadores sube entre 3 y 10 puntos porcentuales, y en algunos casos el modelo ganador cambia cuando ambos reciben contexto. Eso sugiere que los leaderboards actuales pueden estar midiendo mal la capacidad de adaptación de un modelo. (allenai.org)
-
Juicios más sustantivos. Con contexto, evaluadores tienden a evaluar la sustancia de la respuesta (relevancia, corrección, ajuste a necesidades) en vez de centrarse en el estilo o la forma. ¿No es eso justo lo que queremos saber cuando integramos un asistente en productos reales? (allenai.org)
-
Sesgo en la respuesta por defecto. Usando el modo que revela contexto solo al evaluador, Ai2 muestra que las respuestas por defecto tienden a favorecer contextos WEIRD (Western, Educated, Industrialized, Rich, Democratic). En otras palabras, sin instrucciones explícitas, los modelos suelen alinearse mejor con usuarios occidentales y de mayor ingreso, lo que plantea riesgos de equidad en aplicaciones reales. (allenai.org)
¿Y qué puedes hacer tú con esto?
-
Si eres investigador o desarrollador de modelos: añade contextos sintéticos a tus benchmarks para medir adaptabilidad y equidad, no solo la respuesta promedio sin información.
-
Si construyes productos: prueba cómo cambia la utilidad del modelo cuando le das datos concretos sobre el usuario, y diseña flujos que pidan clarificaciones clave antes de actuar.
-
Si eres usuario o responsable de producto: cuestiona los resultados "por defecto" y pide evaluaciones que consideren distintos perfiles de usuario para evitar decisiones que funcionen bien solo para algunos.
Recursos para profundizar
Puedes leer el paper original, revisar el código y descargar los datos usados en la evaluación: paper en arXiv, código en GitHub y dataset en Hugging Face. Estos materiales facilitan replicar y adaptar el método a tus propios conjuntos de preguntas. (allenai.org)
Preguntar mejor y dar contexto suena obvio, pero en la práctica cambia radicalmente qué modelos parecen "mejores". ¿No preferirías juzgar una IA por cómo responde cuando sabe quién eres y qué necesitas? Ese es el punto central de las evaluaciones contextualizadas: hacer las pruebas más humanas, útiles y justas.