Gemma 4 y Cerebras impulsan voz AI en tiempo real

Hugging Face y Cerebras presentan una pila abierta de voz en tiempo real que hace que las conversaciones con IA se sientan naturales. ¿El truco? Reducir la latencia del modelo de lenguaje con inferencia rápida y estable para que la respuesta llegue cuando la esperas, no varios segundos después.

Qué anunciaron

Hugging Face armó un demo de speech-to-speech en tiempo real que usa WebSocket para chat de voz interactivo. La tubería es modular y completamente abierta: puedes inspeccionar, reemplazar y adaptar cada componente para asistentes, robots o proyectos de investigación.

La secuencia completa es:

Entrada de voz
Reconocimiento de voz con Nvidia Parakeet
Inferencia de Gemma 4 VLM (Google DeepMind, 31B) ejecutada en hardware Cerebras
Síntesis de voz con Alibaba Qwen3TTS
Respuesta hablada

Hugging Face ya usa esta pila en robots Reachy Mini —más de 9,000 unidades— donde la rapidez no es un adorno: es lo que hace que la interacción parezca viva.

Qué anunciaron

Arquitectura técnica y por qué importa

Latencia, estabilidad y experiencia

Casos de uso y aplicabilidad práctica

Para desarrolladores e investigadores

Fuente original

¡Mantente al día!

Gemma 4 y Cerebras impulsan voz AI en tiempo real