Hugging Face integra Every Eval Ever en páginas de modelos IA | Keryc
EEE (Every Eval Ever) nació en febrero de 2026 como un esfuerzo interinstitucional para arreglar un problema muy prosaico: los resultados de evaluaciones de modelos de IA están por todas partes y en todos los formatos. ¿El efecto? Difícil comparación, falta de trazabilidad y desconfianza cuando los mismos benchmarks devuelven números distintos según quién los corrió.
Qué es EEE y por qué importa
EEE propone una solución simple y técnica a la vez: un solo JSON schema para cada resultado de evaluación que registra datos imprescindibles. ¿Qué guarda exactamente? Quién corrió la evaluación, qué modelo se evaluó, cómo se accedió al modelo, la configuración de generación, qué significa la métrica y, opcionalmente, un archivo JSONL con salidas por muestra.
Eso cambia la forma de reportar. En lugar de tener scores desperdigados en papers, log de harness, leaderboards y posts, todo termina con la misma estructura. Desde el lanzamiento EEE alimenta un datastore en Hugging Face con ~229000 resultados de evaluación, abarcando más de 22000 modelos y 2200 benchmarks, extraídos de 31 formatos distintos. Reproducir solo esas corridas desde cero costaría cientos de miles de dólares, así que mantener la trazabilidad es además eficiente en costos.
Cómo funciona la integración con Hugging Face Community Evals
Hugging Face lanzó Community Evals para descentralizar la publicación de scores en el Hub. La integración con EEE une dos objetivos: visibilidad y legibilidad.
Los benchmarks se registran como repositorios de dataset que incluyen un eval.yaml. Esos repositorios alimentan leaderboards que agregan todos los scores reportados contra ese benchmark.
En cada repositorio de modelo, las puntuaciones se almacenan en .eval_results/*.yaml y aparecen en la model card. Cada entrada lleva una insignia que indica si la puntuación viene del autor, de la comunidad o está verificada.
Cuando envías un resultado tanto a Community Evals como a EEE, tu score aparece en la página del modelo y en el leaderboard, y además incluye una badge que enlaza al registro EEE completo, donde están la generation config, versión del harness, notas de reproducibilidad y datos a nivel de instancia. Resultado visible y legible al mismo tiempo.
El convertidor: qué hace y cómo transforma tus registros
Para evitar mantener dos formatos manualmente, se desarrolló un convertidor que toma tus registros EEE y genera los pequeños YAML que espera Hugging Face. El mapeo principal es directo:
source_data.hf_repo -> dataset.id
evaluation_name -> task_id
score_details.score -> value
evaluation_timestamp -> date
La URL del objeto en el datastore de EEE se coloca en source.url
El convertidor hace más que reescribir campos. Cuando apuntas a una colección del datastore, el flujo es:
Descarga la colección y los objetos referenciados y valida hashes.
Detecta qué scores mapean a benchmarks soportados (hoy: MMLU-Pro, GPQA, HLE y GSM8K).
Audita el repo del modelo en el Hub leyendo cada .eval_results en la rama principal y PRs abiertos.
Clasifica cada posible entrada en estados: already_present, score_conflict, missing_hf_model o ready.
Nada se empuja sin tu confirmación. El convertidor escribe vistas previas YAML locales, genera un archivo de revisión y un reporte. Solo abre PRs cuando escribes OPEN PRS y dejas un mensaje de commit. Si vuelves a ejecutar lo mismo, reutiliza la cache a menos que pases --force.
Estado de confianza y verificación
Un punto clave para investigadores y responsables de políticas: si envías resultados a través de la cuenta oficial de tu organización en Hugging Face, esos entries aparecen con una marca verificada en EvalEval. Esa marca ayuda a distinguir entre números publicados por la fuente y scores añadidos por terceros.
Además, cada score en la página del modelo lleva la metadata mínima en YAML y un enlace directo al JSON EEE. Eso significa que quien quiera reproducir o examinar la evaluación tiene acceso al registro estructurado completo, no solo al número.
Cómo usar el convertidor hoy
El repositorio GitHub contiene el código, ejemplos y la guía de contribución. Para procesar una colección puedes usar la CLI así:
uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro --datastore evaleval/EEE_datastore@main
Revisa las vistas previas y el reporte; cuando todo esté OK, escribe OPEN PRS para crear los pull requests. La documentación completa del schema, CLI y convertidores está en evalevalai.com/every_eval_ever/hf-community-evals.
Impacto práctico y recomendaciones técnicas
Si trabajas con evaluaciones: sube tus registros completos a EEE y usa el convertidor para exponerlos en Hugging Face. ¿Por qué? Porque obtienes trazabilidad, visibilidad en el Hub y un respaldo público que facilita auditorías y comparaciones.
Si eres autor de modelos: revisa los PRs en tu repo; puedes aceptar, cerrar o esconder resultados. Mantén eval_results actualizados y documenta tu harness y configuración de generación para evitar discrepancias de score.
Si eres policymaker o analista: ahora hay una ruta verificable para seguir un número hasta su ejecución original. Eso reduce el ruido y mejora la interpretación de métricas de seguridad y desempeño.
EEE y Community Evals no reinventan la evaluación, la organizan. Trazabilidad, auditabilidad y una integración pensada para la colaboración: eso pasa de ser una buena práctica a algo reproducible y automatizable.