Google mejora Gemini con audio nativo para agentes de voz

12 dic 20254 minutos

Esta semana Google actualizó sus modelos de audio Gemini para hacer las interacciones por voz más naturales y potentes. ¿Qué significa eso para ti como usuario, desarrollador o empresario que piensa en asistentes de voz? Menos respuestas robóticas, más conversaciones útiles y nuevas posibilidades de traducción en tiempo real.

Qué trae la actualización

Google lanzó una versión mejorada llamada Gemini 2.5 Flash Native Audio orientada a agentes de voz en vivo. No es solo generar voz más expresiva (eso ya lo habían avanzado con Gemini 2.5 Pro y Flash TTS), sino mejorar cómo la IA entiende flujos de trabajo complejos, sigue instrucciones y mantiene diálogos coherentes.

La actualización ya está disponible en productos como Google AI Studio, Vertex AI, y está llegando a Gemini Live y Search Live. En la práctica esto te permite, por ejemplo, hacer brainstorming en vivo con Gemini, recibir ayuda en tiempo real desde Search Live, o crear agentes de atención al cliente con capacidad empresarial.

Mejoras clave

Google destaca tres áreas donde el modelo sube de nivel:

Llamadas a funciones más precisas: el modelo identifica mejor cuándo debe consultar información externa y reintegrarla a la respuesta de audio sin romper la conversación. En la evaluación ComplexFuncBench Audio, que mide llamadas múltiples a funciones con restricciones, Gemini 2.5 Native Audio obtiene 71.5%.
Mejor seguimiento de instrucciones: sube la fidelidad a las indicaciones del desarrollador, con una tasa de adherencia del 90% (antes 84%), lo que se traduce en salidas más completas y confiables.
Conversaciones más fluidas: hay mejoras en calidad multi-turn; el modelo recupera contexto de turnos previos con mayor eficacia, haciendo que la interacción suene más coherente y natural.

Resultado práctico: menos interrupciones, menos respuestas fuera de contexto y mayor consistencia en sesiones largas.

Qué dicen los clientes

Varias empresas ya están usando estas capacidades para resultados reales:

Shopify: su VP de Producto comenta que los usuarios llegan a olvidar que están hablando con IA y que las nuevas APIs Live les ayudan a vender más.
UWM (United Wholesale Mortgage): dice que, tras integrar Gemini 2.5 Flash Native Audio, lograron generar miles de préstamos gracias a mejores interacciones.
Newo.ai: con receptores AI usando Vertex AI, logran identificar al hablante en entornos ruidosos, cambiar de idioma en medio de la conversación y mantener expresividad emocional.

Estos testimonios no son hype; muestran casos comerciales concretos desde atención telefónica hasta procesamiento de trámites.

Traducción de voz en vivo: escuchar el mundo en tu idioma

Una de las novedades más llamativas es la traducción de voz en vivo para audífonos. Funciona en dos modos:

Escucha continua: traduce múltiples idiomas hacia un lenguaje objetivo en streaming, para que pongas audífonos y escuches lo que se habla a tu alrededor en tu idioma.
Conversación bidireccional: traduce entre dos idiomas en tiempo real, cambiando automáticamente el idioma de salida según quién habla. Ejemplo: tú hablas inglés y tu interlocutor habla hindi; tú oyes la traducción al inglés y tu teléfono transmite hindi cuando terminas de hablar.

Características prácticas:

Cobertura: más de 70 idiomas y 2000 pares de idioma.
Transferencia de estilo: preserva entonación, ritmo y timbre para que la traducción suene natural.
Entrada multilingüe: detecta y entiende varios idiomas en una misma sesión.
Autodetección: no necesitas seleccionar el idioma; el sistema lo detecta y comienza a traducir.
Robustez al ruido: filtra ruido ambiente para conversaciones en exteriores o sitios ruidosos.

La beta está disponible desde hoy en la app Google Translate para Android en Estados Unidos, México e India; iOS y más regiones vienen pronto. Google planea llevarlo también al Gemini API en 2026 según el feedback.

Para desarrolladores y empresas

Si quieres construir agentes de voz, Gemini 2.5 Flash Native Audio está disponible de forma general en Vertex AI y en preview en la Gemini API. Los modelos de TTS Gemini 2.5 Flash y 2.5 Pro también quedan disponibles desde la API en Google AI Studio.

Recursos útiles mencionados por Google:

Documentación para desarrolladores y guías de speech generation.
Prompting guide y el Gemini API Cookbook para empezar con ejemplos.

¿Por qué importa esto ahora?

Porque la voz deja de ser un simple canal y se convierte en una interfaz que entiende contexto, acciones y matices humanos. Para empresas significa mejor automatización de llamadas, menos frustración para usuarios y nuevas formas de comunicación multilingüe. Para las personas, significa poder conversar con herramientas que entienden instrucciones complejas y traducen en tiempo real sin que suene artificial.

¿Te interesa probarlo o integrarlo en un producto? Empieza por Vertex AI o la preview de Gemini API y juega con los ejemplos en Google AI Studio; la mejor forma de entenderlo es escuchándolo.

Fuente original

https://blog.google/products/gemini/gemini-audio-model-updates

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.