Hugging Face integra Every Eval Ever en páginas de modelos IA

EEE (Every Eval Ever) nació en febrero de 2026 como un esfuerzo interinstitucional para arreglar un problema muy prosaico: los resultados de evaluaciones de modelos de IA están por todas partes y en todos los formatos. ¿El efecto? Difícil comparación, falta de trazabilidad y desconfianza cuando los mismos benchmarks devuelven números distintos según quién los corrió.

Qué es EEE y por qué importa

EEE propone una solución simple y técnica a la vez: un solo JSON schema para cada resultado de evaluación que registra datos imprescindibles. ¿Qué guarda exactamente? Quién corrió la evaluación, qué modelo se evaluó, cómo se accedió al modelo, la configuración de generación, qué significa la métrica y, opcionalmente, un archivo JSONL con salidas por muestra.

Eso cambia la forma de reportar. En lugar de tener scores desperdigados en papers, log de harness, leaderboards y posts, todo termina con la misma estructura. Desde el lanzamiento EEE alimenta un datastore en Hugging Face con ~229000 resultados de evaluación, abarcando más de 22000 modelos y 2200 benchmarks, extraídos de 31 formatos distintos. Reproducir solo esas corridas desde cero costaría cientos de miles de dólares, así que mantener la trazabilidad es además eficiente en costos.

Qué es EEE y por qué importa

Cómo funciona la integración con Hugging Face Community Evals

El convertidor: qué hace y cómo transforma tus registros

Estado de confianza y verificación

Cómo usar el convertidor hoy

Impacto práctico y recomendaciones técnicas

Fuente original

¡Mantente al día!

Hugging Face integra Every Eval Ever en páginas de modelos IA