EVA-Bench Data 2.0 amplía benchmark de agentes de voz | Keryc
EVA-Bench Data 2.0 llega para poner más rigor y realismo en cómo evaluamos agentes de voz empresariales. ¿Por qué importa? Porque un agente que maneja códigos de confirmación en una aerolínea puede fallar estrepitosamente al procesar políticas de recursos humanos en salud. Esta versión pasa de un dominio a tres, con 213 escenarios cubriendo 121 herramientas: un salto de aproximadamente 4x en cobertura respecto a la versión original.
Qué incluye la nueva entrega
Los tres dominios son claros y complementarios: Airline Customer Service Management (CSM), Enterprise IT Service Management (ITSM) y Healthcare HR Service Delivery (HRSD). En total son 213 escenarios validados frente a modelos frontier: OpenAI GPT-5.4, Google Gemini 3.1 Pro y Anthropic Claude Opus 4.6.
Airline (CSM): 50 escenarios.
ITSM: 80 escenarios.
HRSD (Healthcare): 83 escenarios.
Cada escenario trae un objetivo de usuario estructurado, una base de estado inicial y el estado final esperado. Todo el paquete es open source bajo MIT y listo para descargarse desde Hugging Face.
Código de ejemplo para cargar los datasets
Puedes cargar los conjuntos con la librería datasets así:
from datasets import load_dataset
# Airline Customer Service Management (CSM) — 50 escenarios
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")
# Enterprise IT Service Management (ITSM) — 80 escenarios
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")
# Healthcare HR Service Delivery (HRSD) — 83 escenarios
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")
Cada registro contiene todo lo necesario para una evaluación bot-a-bot reproducible: user_goal, initial_scenario_database y expected_final_state.
Principios de diseño (técnico y práctico)
Los autores siguieron cinco principios claros que vale la pena entender si trabajas en agentes de voz:
Voice-first scope. Solo flujos que realmente ocurren por teléfono entran al benchmark. Esto evita ruido y mantiene la evaluación relevante.
Realism. Esquemas de herramientas y políticas modelados según APIs y regulaciones reales. En HRSD se integran referencias a NPI, FMLA e insumos de administración de salud en EE UU.
Variety. Escenarios single-intent, multi-intent (hasta 4 intenciones) y adversariales donde el usuario intenta burlar pasos o acceder sin autorización.
Authentication. Flujos de autenticación incluidos y calibrados por contexto; por ejemplo, elevación por OTP solo donde corresponde.
Reproducibility. Cada escenario tiene exactamente una ruta de resolución correcta para evitar señales de evaluación ambiguas.
Generación conjunta y validación: SyGra + LLMs
Aquí está lo más técnico y novedoso: EVA-Bench usa SyGra, un pipeline basado en grafos, con GPT-5.4 como motor de generación. Cada escenario necesita tres componentes generados conjuntamente para evitar inconsistencias:
User goal estructurado como un árbol de decisión para que el simulador sea determinista.
Initial scenario database con todas las entidades que el escenario referenciará.
Expected final database state obtenido ejecutando el LLM sobre las instrucciones del agente y el escenario, dejando como resultado la traza de acciones y el estado terminal.
La generación conjunta evita errores silenciosos tipo "case ID referenciado que no existe". Después de generar, corre un loop de validación con tres pasos:
Chequeo estructural contra un Pydantic schema para atrapar tipos y campos faltantes.
Validador basado en LLM que revisa consistencia entre goal y base de datos, referencias cruzadas y configuración de autenticación.
Verificación de traza basada en LLM que asegura cumplimiento de políticas, orden correcto de acciones y ausencia de rutas alternativas que creen no determinismo.
Tras la generación automática, cada escenario pasó por revisiones manuales que corrigieron o descartaron registros ambiguos.
Evaluación con modelos frontier y limpieza del dataset
Como control de calidad final, las muestras se ejecutaron en versión texto (sin audio) con GPT-5.4, Gemini 3.1 Pro y Claude Opus 4.6. Si algún modelo marcaba 0 en completitud de tarea, los investigadores investigaron si se trataba de:
Error genuino del modelo.
Ambigüedad en la política.
Objetivo de usuario mal especificado.
Bug en el ejecutor de herramientas.
Inconsistencia entre estado inicial y esperado.
Los casos con problema de dataset se corrigieron o eliminaron. Critico: todas las muestras seleccionadas son solucionables por al menos uno de los modelos frontier, lo que garantiza que el benchmark sea desafiante pero justo.
Multilingüismo y adaptación cultural
EVA-Bench expande su alcance más allá del inglés. No es solo traducir frases: la adaptación incluye nombres, números telefónicos, formatos de email y localizaciones. También se adapta la canalización de evaluación para respetar variaciones culturales y lingüísticas que afectan ASR y la interpretación conversacional.
Ejemplo práctico: una misma intención en inglés y francés cambia ubicaciones, nombres y números para que el simulador suene auténtico en cada idioma. Esto permite medir degradaciones específicas por idioma en reconocimiento de voz y en razonamiento conversacional.
Cómo te sirve esto hoy si trabajas con agentes de voz
Si evalúas un voice agent en producción, corre tu sistema contra estos 213 escenarios para ver fallos reales en autenticación, manejo de entidades estructuradas y flujos multi-intención.
Si construyes tu propio dataset, la sección metodológica y el pipeline SyGra sirven como referencia para generar escenarios reproducibles y verificables.
Si te interesa despliegue multilingüe, la extensión propuesta te da un camino para adaptar tanto datos como métricas.
Recomendaciones técnicas rápidas
Prioriza pruebas en escenarios adversariales y con objetivos insatisfacibles; ahí los modelos suelen fallar más.
Usa la generación conjunta (goal + DB inicial + estado final) para evitar no determinismo en evaluaciones automáticas.
Incorpora validación LLM y chequeos estructurales antes de aceptar un registro en tu benchmark.
Este lanzamiento no es solo más datos. Es una receta replicable para crear benchmarks de voz que sean realistas, reproducibles y multilingües. Si tu equipo desarrolla o evalúa agentes conversacionales, EVA-Bench Data 2.0 es un recurso técnico directo y práctico para identificar fallos críticos antes del despliegue.