Imagina aplicar la misma prueba a un alumno de primaria y a uno de universidad. ¿Tiene sentido? Probablemente no. Lo mismo ocurre cuando usamos conjuntos de evaluación estáticos para modelos de lenguaje con capacidades muy distintas. Investigadores del Allen Institute proponen Fluid Benchmarking, un enfoque adaptativo que elige ítems según el nivel del modelo para medirlo con más precisión y menos costo. (allenai.org)
Qué es Fluid Benchmarking
Fluid Benchmarking adapta ideas de la psicometría, en particular la teoría de respuesta al ítem IRT, a la evaluación de modelos de lenguaje. En lugar de tratar todas las preguntas igual, el método aprende dos características por ítem: dificultad y discriminación, y representa a cada modelo por una ability o nivel latente. Esto permite comparar modelos en un espacio de habilidad en vez de solo en porcentaje de aciertos. ()
