En pocas líneas: Ai2 (Allen Institute for AI) publicó un análisis nuevo sobre cómo decidir qué benchmarks realmente sirven para comparar modelos de lenguaje. ¿La idea principal? No todos los tests son igualmente útiles cuando pruebas modelos pequeños y luego escalas, y hay una forma simple de medir esa confiabilidad. (allenai.org)
Qué anunció Ai2
Ai2 presenta la idea de medir la relación entre señal y ruido para evaluar qué benchmarks son fiables al tomar decisiones de diseño y escalado de modelos. Publicaron un artículo del blog con los resultados, los datos (900000 evaluaciones) y código para que otros lo reproduzcan. (allenai.org)
¿Qué es SNR y por qué importa?
SNR significa signal-to-noise ratio. En este contexto: señal es cuánto separa un benchmark a los modelos entre sí (es decir, cuánta variedad útil hay en las puntuaciones), y es la variabilidad aleatoria que aparece durante el entrenamiento y que puede ocultar esas diferencias. Si el ruido es alto y la señal baja, es fácil equivocarse al decidir qué cambio de entrenamiento es mejor. ()
