Open Agent Leaderboard: evalúa agentes de IA por calidad y costo | Keryc
Hoy IBM Research y la comunidad lanzan el Open Agent Leaderboard, una evaluación abierta que mide agentes de IA como sistemas completos, no solo como modelos aislados.
¿Por qué eso cambia las cosas? Porque cuando despliegas un agente no eliges solamente un modelo: eliges planificación, memoria, manejo de errores, y qué herramientas puede usar. Cambia cualquiera de esos elementos y el mismo modelo puede comportarse muy distinto y a costos muy diferentes.
Qué es y por qué importa
El Open Agent Leaderboard compara sistemas de agente completos en seis benchmarks distintos y reporta tanto calidad como costo. Eso te permite ver no solo qué funciona, sino qué vale la pena desplegar en producción.
La idea central es medir generalidad: qué tan bien se mantiene un agente cuando lo dejas enfrentarse a trabajos y reglas nuevas sin ajuste específico. La generalidad se trata como un espectro, no como una etiqueta binaria. Lo útil es que un agente siga siendo capaz a medida que crece la variedad de tareas y que lo haga a un costo razonable.
La arquitectura de la evaluación: Exgentic y el protocolo unificado
La evaluación usa Exgentic, un framework abierto para ejecutar y reproducir pruebas. Para que benchmarks tan distintos puedan convivir, introdujeron un protocolo que da a cada tarea la misma forma: un task (qué hacer), un context (qué se sabe), y un conjunto de actions (qué está permitido).
Esa estandarización permite que los agentes no tengan que hablar cada lenguaje de benchmark: todos hablan uno. Eso exigió adaptar suposiciones e interfaces, y por eso los resultados pueden diferir de los tableros individuales de cada benchmark.
Los seis benchmarks que usan
SWE-Bench Verified: arreglar bugs reales en repositorios reales.
BrowseComp+: investigar preguntas complejas en la web.
AppWorld: completar tareas personales en cientos de apps y acciones.
tau2-Bench Airline & Retail: atención al cliente siguiendo políticas de empresa.
tau2-Bench Telecom: soporte técnico siguiendo políticas de empresa.
Cada benchmark fue elegido porque aporta una dimensión distinta: cambios reales en código, investigación abierta, espacios de acción amplios, conversaciones con reglas. Esa mezcla es lo que da sentido a la evaluación de generalidad.
Qué mide el leaderboard y cómo leerlo
Cada fila del leaderboard es un sistema completo: un agente concreto envuelto con un modelo concreto, evaluado en los seis benchmarks. Para cada configuración se muestra:
Tasa de éxito promedio.
Costo promedio por tarea.
Desglose por benchmark.
Así puedes trazar calidad vs costo y ver tradeoffs: configuraciones con la misma calidad pueden diferir por órdenes de magnitud en precio.
Hallazgos principales (técnicos y prácticos)
El modelo sigue explicando la mayor parte de la varianza en rendimiento, pero la arquitectura del agente ya tiene impacto visible. Es decir, el agente importa.
Mismo modelo, diferentes agentes: distintos resultados y diferentes costos. Un ejemplo: en el top cinco, los tres primeros usan el mismo modelo pero difieren tanto en score como en costo por la implementación del agente.
El comportamiento frente a fallas importa tanto como el éxito. En los experimentos, las ejecuciones fallidas costaron entre 20% y 54% más que las exitosas. ¿Qué significa eso para producción? Que optimizar para fallas baratas puede reducir facturas.
La técnica de tool shortlisting (acotar qué herramientas considerar antes de buscar) mejoró rendimiento en todos los modelos y convirtió configuraciones fallidas en viables. Es una palanca práctica y replicable.
Agentes generales sin ajuste por benchmark compitieron con sistemas especializados en varios casos. En otras palabras: la generalidad ya rinde frutos.
Sobre modelos open-weight: añadieron DeepSeek V3.2 y Kimi K2.5. Los resultados abiertos muestran que estos modelos son competitivos en combinaciones específicas, pero en promedio van 18 a 29 puntos porcentuales por detrás de los modelos cerrados de frontera.
Implicaciones para equipos que desarrollan o despliegan agentes
Si vas a poner un agente en producción, no mires solo la tasa de éxito: mira el costo por tarea y el patrón de fallas. A veces un agente más barato y menos brillante conviene más.
Documenta y versiona componentes del agente (planificación, memoria, uso de herramientas, gestión de contexto, recuperación de errores). Eso facilita reproducibilidad y diagnosticar qué parte aporta las mejoras.
Integra tool shortlisting y estrategias para contener rutas de ejecución largas y costosas. Pequeños cambios de arquitectura del agente pueden desbloquear grandes ganancias de eficiencia.
Usa Exgentic para reproducir pruebas y someter tu agente a settings no tuneados. Si tu agente sobrevive sin tuning, tienes evidencia real de generalidad.
Limitaciones y próximo paso de investigación
No todo está cubierto: los benchmarks no contemplan todas las capacidades que un agente general necesitará, y adaptar algunos suites fue necesario porque no fueron diseñados para agentes generales. Este proyecto es evolutivo y depende de la comunidad para ampliar agentes, benchmarks y modelos.
El tablero es una plataforma abierta: puedes enviar resultados (PR en el dataset), integrar nuevos benchmarks con evaluador programático, o añadir modelos open-weight.
Lectura técnica y reproducibilidad
La metodología completa y el análisis empírico están en el paper asociado. Exgentic entrega sesiones estandarizadas, trayectorias y reportes de costo que permiten reproducir experimentos y descomponer qué impulsa cada resultado: modelo, diseño del agente o componentes concretos.
Si te interesa experimentar: prueba las configuraciones publicadas, reproduce las trazas, y analiza qué componentes cambian la forma en que falla o triunfa un agente.
General agents no son una promesa lejana. Están aquí, y medirlos correctamente requiere mirar el sistema completo, el costo y cómo fallan. El Open Agent Leaderboard es un paso hacia evaluaciones más útiles, abiertas y comparables. Si trabajas con agentes, este tablero te da herramientas para evaluar y mejorar no solo el modelo sino todo lo que lo rodea.