Open ASR Leaderboard incorpora datos privados | Keryc
Desde septiembre de 2023 la comunidad ha usado el Open ASR Leaderboard para comparar modelos de reconocimiento de voz. ¿Qué pasa cuando alguien intenta optimizar para la prueba en lugar de mejorar el mundo real? La respuesta de Hugging Face ha sido añadir un conjunto de datos privados para reducir el riesgo de benchmaxxing y medir mejor la robustez en condiciones conversacionales y de acento diverso.
Qué cambió y por qué
La novedad: Appen Inc. y DataoceanAI han aportado varios conjuntos de datos de alta calidad en inglés (scripted y conversational) que no se publican para evitar contaminación del conjunto de prueba. ¿Por qué mantenerlos privados? Porque cuando los test públicos están demasiado disponibles, algunos equipos pueden ajustar sus modelos específicamente para esos datos y obtener puntajes altos sin mejoras reales en producción.
Importante: por defecto, el Average WER del leaderboard se sigue calculando solo con datasets públicos. Puedes activar una opción para incluir los datos privados y ver cómo cambian las métricas.
Esa dualidad responde a dos objetivos que siempre chocan en un benchmark: estandarización y apertura. Hugging Face estandariza transcripciones usando un normalizador (basado en el de Whisper) que elimina puntuación, pasa a minúsculas y mapea a ortografía americana. Y mantiene abiertas las herramientas de evaluación y la UI para que la comunidad audite y contribuya. Pero esa transparencia también facilita el benchmaxxing, de allí la decisión de un track privado.
Los datasets: detalles técnicos
Hugging Face trabajó con Appen y DataoceanAI para crear splits con variedad de acentos, estilos y duración. Aquí están las métricas resumidas:
Dataset
Accent
Duration [h]
Male (%) / Female (%)
Style
Transcription
Appen Scripted AU
Australian
1.42
49 / 51
Read
Punctuated, cased.
Appen Scripted CA
Canadian
1.53
52 / 48
Read
Punctuated, cased.
Appen Scripted IN
Indian
1.02
49 / 51
Read
Punctuated, cased.
Appen Scripted US
American
1.45
49 / 51
Read
Punctuated, cased.
Appen Conversational IN
Indian
1.37
51 / 49
Conversational, spontaneous
Punctuated, disfluencies.
Appen Conversational US003
American
1.64
49 / 51
Conversational, spontaneous
Punctuated, cased, disfluencies.
Appen Conversational US004
American
1.65
49 / 51
Conversational, spontaneous
Punctuated, disfluencies.
DataoceanAI Scripted US
American
2.43
54 / 46
Read
Punctuated, cased (proper nouns), disfluencies.
DataoceanAI Scripted GB
British
2.43
47 / 53
Read
Punctuated, disfluencies.
DataoceanAI Conversational US
American
8.82
NA
Conversational, spontaneous
Punctuated, disfluencies.
DataoceanAI Conversational GB
British
5.96
NA
Conversational, spontaneous
Punctuated, disfluencies.
También se incluyen ejemplos de audio para mostrar variedad: scripted, conversational, acrónimos, disfluencias y nombres propios.
Cómo impacta las métricas (WER y promedios)
Average WER se calcula como un macroaverage de las medias por proveedor de datos, es decir, cada proveedor pesa igual.
No se ofrecen puntajes por cada split individual para evitar que alguien optimice solamente para un proveedor o acento.
Por defecto, los sets privados no influyen en el ranking global. Si quieres ver su efecto, puedes activar la pestaña "Private data"; entonces el Average WER incluirá esos splits y verás el Rank Δ, que muestra cómo cambia el orden.
¿Por qué este enfoque? Porque un modelo que brilla en un script controlado o en American English puede fallar en conversacional o en acentos no americanos. El objetivo es capturar esas diferencias y dar una fotografía más completa del rendimiento.
Proceso para subir y verificar tu modelo
Abre un pull request en el repositorio del Open ASR Leaderboard. Aparecerá una checklist para modelos.
Reporta tus resultados en los datasets públicos en tu model card (YAML). Eso permite que tu modelo aparezca en un leaderboard no verificado en la página del dataset.
El equipo verificará los resultados publicados en los sets públicos y calculará las métricas en los sets privados.
Confirma los resultados verificados con los responsables del leaderboard.
Esto mantiene la evaluación descentralizada para rapidez, pero añade verificación central para credibilidad.
Riesgos, mitigaciones y limitaciones
Benchmaxxing aún puede ocurrir si alguien tiene acceso a datos de distribución muy similar. Por eso pidieron a Appen y DataoceanAI que no entreguen estos sets exactos a sus clientes, aunque no pueden garantizarlo al 100 por ciento.
Tener múltiples proveedores reduce la ventaja que podría dar usar datos de uno solo.
También hay trabajo en tooling para detectar problemas de calidad: baja relación señal-ruido (SNR), transcripciones mal alineadas, casos extremos que afectan el WER. Eso ayuda a mantener consistencia entre los splits.
Qué significa esto para ti como desarrollador o usuario
Si eres desarrollador: no te conformes con optimizar para un benchmark público. Si buscas modelos para producción, mira los promedios por tipo de datos y prueba en condiciones conversacionales y de acento diverso.
Si eres usuario: ahora tienes una forma más robusta de comparar modelos según tu caso de uso. ¿Necesitas algo para conversaciones casuales o para audio con ruido y acentos variados? Active la pestaña de datos privados y observa cómo cambian los rankings.
La lección es simple: un buen benchmark evoluciona con las aplicaciones del mundo real. Añadir datos privados no es cerrar la caja, es subir el listón para que los modelos que puntúan alto también sean útiles fuera del laboratorio.