Mistral acaba de lanzar Voxtral Transcribe 2, una familia de modelos de voz a texto pensada para dos cosas que todos queremos: precisión y velocidad. ¿Quieres subtítulos en vivo sin demora o transcribir horas de reuniones con identificación de quién habla? Esto va directo a ese problema.
Qué presenta Mistral
La oferta viene en dos sabores claros:
Voxtral Mini Transcribe V2: modelo para transcripción por lotes con diarización, marcas de tiempo y soporte en 13 idiomas.Voxtral Realtime: diseñado para aplicaciones en vivo, con latencia configurable hasta menos de 200 ms. Sus pesos son abiertos bajo licencia Apache 2.0.
Además, Mistral integró un audio playground en Mistral Studio para que pruebes la transcripción al instante, con diarización y timestamps.
Lo más importante
-
Latencia ultra baja: Realtime puede operar por debajo de 200 ms, ideal para agentes de voz y experiencias conversacionales fluidas.
-
Calidad y eficiencia: Mini Transcribe V2 alcanza aproximadamente 4% de word error rate en el benchmark FLEURS y se ofrece a 0.003 USD por minuto, una combinación difícil de igualar hoy.
-
Pesos abiertos: Realtime se libera bajo Apache 2.0 y puede desplegarse en edge para aplicaciones centradas en privacidad.
-
Soporte multilingue: 13 idiomas nativos, entre ellos español, inglés, chino, hindi, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés.
Voxtral Realtime
Esta variante no adapta un modelo offline; adopta una arquitectura de streaming que transcribe a medida que llega el audio. Eso permite configuraciones de delay muy bajas y una experiencia casi instantánea.
-
Rendimiento: a 2.4 s de retraso, iguala al modelo batch. A 480 ms se mantiene dentro de 1-2% de diferencia en error, suficiente para asistentes de voz que percibes rápidos y fiables.
-
Tamaño y despliegue: huella de 4.000 millones de parámetros que puede correr eficientemente en dispositivos edge, ayudando a mantener datos sensibles localmente.
-
Licencia: pesos abiertos bajo Apache 2.0 y disponibles en Hugging Face.
Voxtral Mini Transcribe V2
Diseñado para transcribir grandes volúmenes con calidad y funciones empresariales:
-
Diarización de hablantes con tiempos de inicio y fin por palabra para saber quién dijo qué y cuándo. En casos de solapamiento suele transcribirse uno de los hablantes.
-
Context biasing: puedes pasar hasta 100 palabras o frases para mejorar la ortografía de nombres propios y terminología técnica. Optimizado para inglés; en otros idiomas el soporte es experimental.
-
Word-level timestamps: útil para subtítulos, búsquedas en audio y sincronización de contenido.
-
Robustez al ruido: pensado para entornos difíciles como fábricas o centros de llamadas.
-
Audio largo: procesa hasta 3 horas en una sola petición.
-
Precio y comparación: alrededor de 4% WER y 0.003 USD por minuto. Según Mistral, supera en exactitud a opciones como GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal y Deepgram Nova, y procesa audio aproximadamente 3 veces más rápido que Scribe v2 de ElevenLabs al mismo nivel de calidad pero a una fracción del costo.
Playground de audio en Mistral Studio
Puedes probar Voxtral Transcribe 2 directamente en Mistral Studio. Características principales:
- Sube hasta 10 archivos, formatos .mp3, .wav, .m4a, .flac, .ogg, hasta 1 GB cada uno.
- Activa o desactiva diarización, elige la granularidad de timestamps y añade términos para context bias.
Es una forma práctica de evaluar resultados reales antes de integrar la API.
Casos de uso reales
-
Reuniones y entrevistas: transcripciones multilingues con atribución de hablantes para análisis y resúmenes.
-
Asistentes de voz: latencia sub-200 ms conectada a un LLM y TTS para experiencias conversacionales naturales.
-
Centros de contacto: transcripción en vivo para sugerir respuestas, analizar sentimiento y actualizar CRM mientras la llamada sigue en curso.
-
Medios y transmisiones: subtítulos en vivo en varios idiomas con baja latencia.
-
Cumplimiento y auditoría: diarización y timestamps ofrecen trazabilidad para requisitos regulatorios.
Privacidad, despliegue y precios
-
Realtime: pesos abiertos bajo Apache 2.0, disponibles en Hugging Face. Permite despliegues en edge para mantener datos localmente.
-
Compliance: Mistral indica soporte para despliegues compatibles con GDPR y HIPAA mediante on-premise o private cloud.
-
Precios API anunciados:
- Voxtral Mini Transcribe V2: 0.003 USD por minuto.
- Voxtral Realtime: 0.006 USD por minuto.
Para quién es esto y por qué importa
Si trabajas con audio a escala, desarrollas asistentes por voz o gestionas centros de contacto, esto cambia el balance entre coste, velocidad y calidad. ¿Necesitas transcribir grandes volúmenes con buena diarización? Mini V2 promete eficiencia. ¿Tu producto exige latencia mínima? Realtime abre la puerta a experiencias conversacionales más naturales y privadas.
Mistral apuesta por poner pesos abiertos en manos de la comunidad sin sacrificar rendimiento comercial. El resultado es interesante: más opciones para desplegar soluciones de voz con control sobre privacidad y costos.
