VAKRA muestra límites de agentes en razonamiento y APIs

VAKRA es un benchmark ejecutable que prueba si los agentes de IA no solo saben llamar herramientas, sino si pueden componer pasos, manejar datos y respetar políticas en entornos parecidos a los de una empresa. ¿Tu agente realmente razona o solo adivina el siguiente API a usar? Aquí te explico cómo está hecho VAKRA, qué mide y por qué sus resultados importan para desplegar agentes en producción.

Qué es VAKRA y por qué importa

VAKRA (tool-grounded, executable benchmark) evalúa la capacidad de agentes para completar flujos de trabajo multi-paso en entornos reales: más de 8,000 APIs locales, 62 dominios y colecciones de documentos alineadas por dominio. A diferencia de benchmarks aislados, VAKRA exige composición: combinar llamadas a APIs estructuradas con recuperación de documentos no estructurados, respetando restricciones de uso cuando aplican.

¿El objetivo? Medir no solo la respuesta final, sino la trayectoria de ejecución completa: llamadas a herramientas, argumentos, salidas intermedias y la respuesta final. Esa evaluación ejecutable es lo que revela fallas sutiles que los tests clásicos no captan.

Qué es VAKRA y por qué importa

Arquitectura y colecciones de herramientas

Las cuatro capacidades que mide VAKRA

Evaluación ejecutable: cómo se juzga un agente

Métricas y scoring

Principales modos de falla (análisis técnico)

Resultados y lecciones de los modelos evaluados

¿Qué significa esto para quienes construyen agentes?

Cómo probar tu agente en VAKRA

Fuente original

¡Mantente al día!

VAKRA muestra límites de agentes en razonamiento y APIs