Tolan usa GPT-5.1 para impulsar la IA por voz | Keryc
Tolan es un asistente conversacional pensado para hablar, no para teclear. Imagina un personaje animado y personalizado con el que conversas de forma abierta y que aprende contigo a medida que pasan las charlas. No es un chatbot de respuestas rápidas: es una experiencia de diálogo continuo diseñada para sostener conversaciones largas y cambiantes.
¿Qué es Tolan y por qué importa?
Tolan fue creado por Portola, un equipo con experiencia previa en startups que decidió apostar por la voz como la siguiente gran frontera después del boom de ChatGPT. ¿Por qué voz? Porque la interacción vocal exige latencia baja, manejo de contexto dinámico y personalidad consistente. Eso lo hace más difícil, pero también más natural y exploratorio que el texto.
Quinten Farmer, cofundador y CEO de Portola, explica que con ChatGPT vieron la oportunidad: la voz iba a ser lo siguiente, pero requería resolver problemas distintos a los del texto.
Tolan se centra en mantener una personalidad reconocible, adaptarse a cambios de tema en mitad de la frase y responder de forma inmediata, para que la conversación no se sienta mecánica.
Cómo aprovechan GPT-5.1 y la Responses API
El lanzamiento de los modelos GPT-5.1 fue clave para Tolan. Portola necesitaba tres cosas: mayor steerability (capacidad de seguir instrucciones de tono y personalidad), latencia baja y consistencia en conversaciones largas. GPT-5.1 y la Responses API entregaron mejoras suficientes para unir esos elementos.
Latencia: introducir GPT-5.1 y la Responses API redujo el tiempo de inicio del habla en más de 0.7 segundos, una diferencia perceptible en la fluidez del diálogo.
Steerability: las instrucciones en cadena —esquemas de tono, rasgos de personaje y recordatorios de memoria— empezaron a cumplirse con fidelidad, reduciendo la deriva de personalidad.
Arquitectura orientada a la voz
Tolan no utiliza el clásico enfoque de cachear prompts entre turnos. Cada turno reconstruye el contexto desde cero, combinando:
un resumen de mensajes recientes,
una tarjeta de persona que define rasgos centrales,
recuerdos recuperados por vectores,
guías de tono y señales en tiempo real de la app.
Esta reconstrucción permite que el sistema se adapte al instante cuando el usuario cambia de tema, sin depender de prompts gigantes que terminan siendo frágiles.
Memoria y búsqueda rápida
Las memorias se embeben con el modelo text-embedding-3-large y se guardan en un vector store llamado Turbopuffer, capaz de búsquedas por debajo de 50 ms. Esa velocidad es esencial para interacciones por voz en tiempo real.
Cada turno puede disparar recuperaciones de memoria usando la última frase del usuario y preguntas sintetizadas por el sistema, por ejemplo "¿Con quién está casado el usuario?". Además, ejecutan trabajos nocturnos de compresión para eliminar recuerdos de poco valor y resolver contradicciones, evitando que la memoria se vuelva ruido.
Personalidad y tono
Cada Tolan empieza con un scaffold de personaje creado por un escritor de ciencia ficción y afinado por un investigador del comportamiento. Un sistema paralelo evalúa el tenor emocional de la conversación y ajusta la entrega: puede pasar de juguetón a más serio sin perder coherencia.
Resultados y métricas
Las mejoras con GPT-5.1 se tradujeron en métricas reales:
Menos fallos de recuerdo de memoria, con una caída del 30% en señales de frustración en producto.
Aumento de más de 20% en retención al día siguiente tras activar las nuevas personas impulsadas por GPT-5.1.
Desde su lanzamiento en febrero de 2025, Tolan superó los 200,000 usuarios activos mensuales, mantiene una calificación de 4.8 estrellas y acumula más de 100,000 reseñas en la App Store.
Un comentario de usuario lo resume: recuerdan cosas que dijiste hace días y las traen de vuelta en la conversación de hoy. Eso es exactamente lo que busca una IA por voz que quiere sentirse viva y conectada.
Principios y lecciones para construir por voz
Portola comparte aprendizajes claros que sirven a cualquier equipo que quiera construir interfaces de voz:
Diseña para la volatilidad conversacional: la gente cambia de tema en medio de la frase.
Trata la latencia como parte del producto: la diferencia entre 0.3 s y 1 s cambia la percepción del agente.
Construye memoria como sistema de recuperación, no como un gran transcript: la compresión y la búsqueda rápida valen más que contextos enormes.
Reconstruye contexto cada turno: regenerar contexto mantiene al agente anclado mientras la conversación deriva.
Esas reglas no son solo técnicas; son decisiones de producto que afectan si una experiencia por voz se siente humana o artificial.
Hacia dónde va Tolan
Portola planea afinar la compresión de memoria, mejorar la lógica de recuperación y expandir el ajuste de personas. La meta a largo plazo es convertir la voz en un interfaz realmente multimodal, donde voz, visión y contexto se integren en un solo sistema steerable.
¿El próximo paso? Agentes de voz que no solo respondan rápido, sino que entiendan contexto amplio y actúen de forma coherente a lo largo del tiempo.
Tolan muestra que la voz no es solo una capa encima del texto: es una nueva manera de diseñar personalidad, memoria y latencia como un todo.