Open ASR Leaderboard incorpora datos privados

Desde septiembre de 2023 la comunidad ha usado el Open ASR Leaderboard para comparar modelos de reconocimiento de voz. ¿Qué pasa cuando alguien intenta optimizar para la prueba en lugar de mejorar el mundo real? La respuesta de Hugging Face ha sido añadir un conjunto de datos privados para reducir el riesgo de benchmaxxing y medir mejor la robustez en condiciones conversacionales y de acento diverso.

Qué cambió y por qué

La novedad: Appen Inc. y DataoceanAI han aportado varios conjuntos de datos de alta calidad en inglés (scripted y conversational) que no se publican para evitar contaminación del conjunto de prueba. ¿Por qué mantenerlos privados? Porque cuando los test públicos están demasiado disponibles, algunos equipos pueden ajustar sus modelos específicamente para esos datos y obtener puntajes altos sin mejoras reales en producción.

Importante: por defecto, el Average WER del leaderboard se sigue calculando solo con datasets públicos. Puedes activar una opción para incluir los datos privados y ver cómo cambian las métricas.

Dataset	Accent	Duration [h]	Male (%) / Female (%)	Style	Transcription
Appen Scripted AU	Australian	1.42	49 / 51	Read	Punctuated, cased.
Appen Scripted CA	Canadian	1.53	52 / 48	Read	Punctuated, cased.
Appen Scripted IN	Indian	1.02	49 / 51	Read	Punctuated, cased.
Appen Scripted US	American	1.45	49 / 51	Read	Punctuated, cased.
Appen Conversational IN	Indian	1.37	51 / 49	Conversational, spontaneous	Punctuated, disfluencies.
Appen Conversational US003	American	1.64	49 / 51	Conversational, spontaneous	Punctuated, cased, disfluencies.
Appen Conversational US004	American	1.65	49 / 51	Conversational, spontaneous	Punctuated, disfluencies.
DataoceanAI Scripted US	American	2.43	54 / 46	Read	Punctuated, cased (proper nouns), disfluencies.
DataoceanAI Scripted GB	British	2.43	47 / 53	Read	Punctuated, disfluencies.
DataoceanAI Conversational US	American	8.82	NA	Conversational, spontaneous	Punctuated, disfluencies.
DataoceanAI Conversational GB	British	5.96	NA	Conversational, spontaneous	Punctuated, disfluencies.

Qué cambió y por qué

Los datasets: detalles técnicos

Cómo impacta las métricas (WER y promedios)

Proceso para subir y verificar tu modelo

Riesgos, mitigaciones y limitaciones

Qué significa esto para ti como desarrollador o usuario

Fuente original

¡Mantente al día!

Open ASR Leaderboard incorpora datos privados