Open ASR Leaderboard: tendencias en ASR multilingüe 2025 | Keryc
Mientras todos y sus abuelas montan nuevos modelos de ASR, elegir el correcto para tu caso de uso puede ser más confuso que decidir la próxima serie en tu lista. El Open ASR Leaderboard se ha convertido en una referencia clara para comparar precisión y eficiencia, y acaba de añadir pistas para multilingüe y long-form, justo donde más falta hacía benchmarking.
🧠 Mejor precisión: encoders Conformer + decodificadores LLM (open-source destacando)
⚡ Más rápido: decodificadores CTC y TDT
🌍 Multilingüe: mejora cobertura pero suele reducir rendimiento por idioma
⌛ Long-form: sistemas cerrados aún van al frente; open source tiene potencial
🧑💻 Guías de fine-tuning: Parakeet, Voxtral, Whisper para quemar etapas
Como referencia, al 21 Nov 2025 el leaderboard compara 60+ modelos de 18 organizaciones en 11 datasets. ¿Te suena abrumador? Vamos a desglosarlo.
Qué mide el Open ASR Leaderboard y por qué importa
El leaderboard no solo mira cuántas palabras se transcriben bien. Combina métricas de precisión como WER (word error rate) con métricas de eficiencia como la inversa del real-time factor (RTFx). En palabras simples: WER te dice cuánto se equivoca el modelo; RTFx te dice cuán rápido procesa el audio (más alto es mejor).
¿Por qué esto es relevante hoy? Muchos benchmarks tradicionales se centran en clips cortos en inglés (<30s). Pero la realidad productiva incluye reuniones de horas, podcasts y escenarios multilingües. Esos casos exigen evaluar throughput y robustez en largas duraciones.
Tendencias técnicas principales
Conformer + LLM decoders: precisión al frente
Los modelos que combinan Conformer en el encoder con decodificadores basados en LLM están liderando en WER para inglés. Ejemplos: NVIDIA Canary-Qwen-2.5B, IBM Granite-Speech-3.3-8B y Microsoft Phi-4-Multimodal-Instruct. Integrar razonamiento del LLM ayuda a corregir ambigüedades y contexto, mejorando la exactitud.
Pro-tip: NVIDIA introdujo Fast Conformer, una variante aproximadamente 2x más rápida que usan en Canary y Parakeet.
Velocidad: CTC y TDT para throughput extremo
Si priorizas velocidad, los decodificadores CTC y TDT son la opción. Ofrecen entre 10 y 100× más throughput que los decodificadores LLM, con una penalización moderada en WER. Ideal para transcripción en tiempo real, procesamiento por lotes o pipelines de larga duración.
Ejemplo práctico: NVIDIA Parakeet CTC 1.1B logra un RTFx de 2793.75, mientras que Whisper Large v3 tiene 68.56. En WER la diferencia es pequeña (6.68 vs 6.43), pero el impacto en costos e infraestructura es grande.
Multilingüe vs. especialización: el eterno tradeoff
OpenAI Whisper Large v3 sigue siendo un referente multilingüe soportando 99 idiomas. Sin embargo, variantes afinadas o destiladas (Distil-Whisper, CrisperWhisper) pueden superar al original en tareas solo en inglés. La lección: afinar para un idioma mejora rendimiento en ese idioma pero reduce cobertura.
Sistemas auto-supervisados como Meta MMS y Omnilingual ASR soportan 1000+ lenguas, pero pierden frente a encoders diseñados para idiomas específicos en precisión. Actualmente solo cinco idiomas están benchmarkeados en la pista multilingüe del leaderboard, con planes de expansión.
Long-form: aún ventaja para sistemas cerrados
En transcripciones largas (podcasts, clases, reuniones), los sistemas cerrados tienden a liderar. Las razones pueden incluir afinamientos de dominio, estrategias de chunking personalizadas y optimizaciones de producción. Entre los abiertos, Whisper Large v3 es el mejor en accuracy, pero para throughput los CTC-based Conformers dominan.
Esto sugiere un camino claro para la comunidad: optimizaciones de chunking, reensamblado, y pipelines híbridos pueden cerrar la brecha.
Recomendaciones prácticas para elegir o implementar ASR
Si necesitas máxima precisión en inglés: busca modelos Conformer + LLM o afina un checkpoint con datos específicos de tu dominio.
Si necesitas latencia baja o procesar grandes volúmenes: prioriza CTC o TDT por su throughput; ajusta la tolerancia de WER según tu caso.
Si tu producto es multilingüe: considera Whisper Large v3 o sistemas MMS, pero planea estrategias híbridas si un idioma crítico necesita mejor exactitud.
Para audio largo: optimiza chunking, usa reentrenamiento con datos largos y evalúa RTFx además de WER.
¿Quieres experimentar? Siguen disponibles guías de fine-tuning para Parakeet, Voxtral y Whisper que te permiten mejorar modelos abiertos para tareas específicas.
Comunidad, datasets y el futuro
El leaderboard es comunitario. Ya hay iniciativas locales (Arabic ASR, Russian ASR) que muestran cómo las variaciones dialectales y la diglosia complican los modelos. La invitación es a contribuir con datasets, checkpoints y evaluaciones: más lenguas y más escenarios harán que los benchmarks sean más útiles.
También es esperable que nuevas arquitecturas híbridas y mejoras en eficiencia (por ejemplo variantes optimizadas de Conformer o decodificadores ligeros con capacidades de contexto) cambien el mapa pronto. ¿Qué sorprenderá en seis meses? Probablemente algo que combine precisión de LLM con la eficiencia de CTC.
La puerta está abierta para innovación en long-form y multilingüe. ¿Quieres que tu modelo sea parte de la comparación? Haz un pull request al repo del leaderboard y sube tus resultados.