Hoy Google anuncia mejoras importantes en los modelos Gemini 2.5 Flash y Gemini 2.5 Pro de Text-to-Speech, pensadas para darte más control sobre estilo, ritmo y voces en escenarios complejos.
Qué cambia en Gemini 2.5 TTS
Google lanza dos modelos nuevos en preview: Gemini 2.5 Flash TTS (optimizado para baja latencia) y Gemini 2.5 Pro TTS (optimizado para calidad). Estos reemplazan los modelos TTS que publicaron en mayo y ya están disponibles para probar en Google AI Studio, el Playground y vía la Gemini API.
Puntos clave:
- Expresividad más rica y mejor adherencia a instrucciones de estilo.
- Control de ritmo con conciencia de contexto.
- Diálogos multi-orador más consistentes y capacidades multilingües.
Mejoras técnicas y por qué importan
Si trabajas en audiolibros, e-learning, tutoriales de producto o podcasts, sabes que la voz debe hacer más que leer texto: debe interpretar. Estas actualizaciones abordan tres capas críticas.
