EVA: nuevo marco para evaluar agentes de voz con IA | Keryc
Los agentes conversacionales de voz no son solo texto que se convierte en audio ni reconocimiento de voz que devuelve una transcripción. Son sistemas que deben completar tareas correctamente y, al mismo tiempo, comunicarse como un buen interlocutor humano por teléfono. EVA nace para evaluar ambos aspectos juntos y de punta a punta.
Qué es EVA
EVA es un marco de evaluación end-to-end para agentes de voz conversacionales que mide conversaciones habladas multi-turno usando una arquitectura bot-to-bot realista. Genera dos puntuaciones de alto nivel: EVA-A (Accuracy) y EVA-X (Experience), y agrega métricas diagnósticas para explicar por qué un agente falla.
Te preguntarás, ¿por qué hace falta esto? Porque muchos benchmarks actuales analizan solo componentes aislados: STT, TTS, dinámica conversacional o task completion por separado. Eso deja invisible la interacción completa, donde una letra mal transcrita o una respuesta extensa hacen que todo falle en la práctica.
Arquitectura y componentes principales
EVA ejecuta conversaciones habladas completas entre un simulador de usuario y el agente evaluado, con un ejecutor de herramientas determinista y validadores automáticos. Los cinco componentes son:
User Simulator: un AI conversacional con objetivo y persona definidos, que habla en audio usando TTS de alta calidad para recrear turn-taking natural y variación de habla.
Voice Agent: el sistema bajo prueba. EVA soporta arquitecturas cascade (STT -> LLM -> TTS) y audio-native (S2S o S2T -> TTS) usando Pipecat para aplicaciones de voz en tiempo real.
Tool Executor: funciones Python deterministas que responden consultas y modifican la base de datos del escenario.
Validators: métricas automáticas que verifican que la conversación llegó al estado esperado; si falla la validación, la conversación se regenera.
Metrics Suite: usa grabación, transcripción y logs de llamadas a herramientas para calcular scores.
Cada test es un registro reproducible con: goal del usuario, persona, base de datos del escenario y ground truth del estado final esperado.
Métricas: EVA-A y EVA-X, y métricas diagnósticas
EVA mide precisión y experiencia en tres subdimensiones cada una, y además reporta métricas diagnósticas:
EVA-A (Accuracy)
Task Completion [determinista]: compara el estado final de la base de datos contra el ground truth.
Faithfulness [LLM-as-Judge]: detecta fabricaciones, violaciones de política y respuestas no fundamentadas.
Agent Speech Fidelity [LALM-as-Judge]: evalúa a nivel de audio si el agente pronunció correctamente entidades críticas (códigos, números de vuelo, montos).
EVA-X (Experience)
Conciseness [LLM-as-Judge]: si las respuestas son apropiadamente breves para entrega hablada.
Conversation Progression [LLM-as-Judge]: si la conversación avanza, retiene contexto y evita estancarse.
Turn-Taking [LLM-as-Judge]: si el agente interrumpe o deja silencios excesivos.
Diagnósticos adicionales aíslan modos de falla (ASR, síntesis, gestión de entidades, latencia). EVA reporta pass@k (probabilidad de que al menos 1 de k ejecuciones tenga éxito) y pass^k (probabilidad de que las k ejecuciones todas tengan éxito), usando k = 3 por defecto para capturar pico y consistencia.
Metodología de evaluación
EVA combina métricas deterministas (rápidas y reproducibles) con jueces basados en LLM o LALM para aspectos cualitativos. Cada juez elegido es el que mejor rinde en un dataset curado para esa métrica. Las conversaciones se ejecutan en audio real para exponer problemas de latencia, errores de turno y errores en reproducción de entidades.
Un punto clave: las conversaciones que no pasan la validación automática se regeneran antes de entrar al análisis, evitando el costoso etiquetado humano posterior para filtrar simulador corrupto.
Resultados clave y hallazgos técnicos
Se evaluaron 20 sistemas (propietarios y open-source; cascade y audio-native) usando un dataset inicial de 50 escenarios del dominio aeronáutico: rebooking por IRROPS, cancelaciones, vouchers y standby.
Hallazgos principales:
Tradeoff Accuracy-Experience: hay una tensión consistente. Sistemas que logran alta tasa de task completion suelen tener peor experiencia conversacional, y viceversa. No hubo una configuración que dominara ambos ejes.
Entidades nombradas: la transcripción de nombres y códigos es un modo de falla dominante. Un caracter errado puede cancelar autenticaciones y romper la conversación.
Flujos multi-step: rebookings que deben conservar ancillaries (asientos, equipaje) son los quebradores más frecuentes.
Consistencia: la brecha entre pass@3 y pass^3 es grande. Muchos agentes completan la tarea ocasionalmente pero no con consistencia, un requisito crítico en producción.
Estos resultados muestran por qué evaluar solo task completion es insuficiente para despliegues reales.
Limitaciones y roadmap
EVA es un avance, pero tiene límites que los autores reconocen:
Framework: el simulador de usuario usa un proveedor comercial de TTS que puede sesgar resultados hacia ciertos ASR. La reproducción completa requiere acceso a APIs comerciales y la latencia medible varía según infraestructura.
Datos: lanzamiento inicial cubre 50 escenarios en inglés y en un solo dominio. No hay aún cobertura amplia de acentos, idiomas o comportamientos extremos.
Métricas: los jueces LLM pueden introducir sesgos y afinidades estilísticas. Además, medir task completion como binario no captura créditos parciales.
Próximos pasos anunciados:
Añadir evaluación prosódica (pronunciación, ritmo, expresividad) y mejorar alineamiento LALM-human.
Robustez bajo ruido, diversidad de acentos y usuarios multilingües.
Nuevos dominios y escenarios más largos con memoria conversacional extendida.
Herramientas de análisis de errores y un leaderboard en continuo.
Cómo usar EVA y dónde está el código
EVA se publica con dataset inicial y los prompts de juez. El código y los datos están disponibles públicamente en GitHub, listos para que investigadores y equipos de producto repliquen pruebas, extiendan escenarios y comparen configuraciones cascade vs audio-native.
Repositorio principal del proyecto: (enlace en la fuente original) y el proyecto complementario está en https://github.com/ServiceNow/eva
Si trabajas con agentes de voz, prueba a medir EVA-A y EVA-X en paralelo. ¿Tu agente completa tareas pero frustra usuarios en la línea? Entonces tienes un tradeoff clásico que exige ajustes en diseño conversacional, calibración de confianza y mejoras en robustez de ASR para entidades.
Equipo y agradecimientos
Contribuyeron Tara Bogavelli, Gabrielle Gauthier Melanc on, Katrina Stankiewicz, Oluwanifemi Bamgbose, Hoang Nguyen, Raghav Mehndiratta y Hari Subramani, entre otros. El proyecto se apoya en trabajo previo de los equipos PAVA y CLAE de ServiceNow.