AstaBench actualiza resultados y gana adopción industrial | Keryc
AstaBench publica una nueva tanda de resultados tras evaluar a los modelos frontera en más de 2.4K problemas de investigación científica. ¿Qué muestran los números sobre la capacidad real de la IA para hacer ciencia de punta, y qué tan útil es hoy para investigadores y desarrolladores?
¿Qué es AstaBench?
AstaBench es un benchmark abierto diseñado para medir si agentes de IA pueden realizar investigación científica con base y rigor. No es solo una lista de pruebas: es un marco de evaluación, un conjunto de problemas y una colección de agentes base que cualquiera puede usar y extender.
El benchmark evalúa cuatro grandes categorías:
búsqueda y comprensión de la literatura científica,
escritura y ejecución de código,
análisis de conjuntos de datos,
y flujos de trabajo de descubrimiento de extremo a extremo.
Todo el código, las herramientas y los agentes base son open source. La primera versión se presentó con Asta y el paper apareció como presentación oral en ICLR 2026. La idea es tener una medición compartida y reproducible de si la IA puede hacer ciencia, no solo tareas aisladas.
Nuevos resultados: números clave y lectura técnica
Se probó a los modelos usando el framework ReAct y se incluyeron corridas con Claude Opus 4.7, Opus 4.6, Sonnet 4.6, GPT-5.5, GPT-5.4 y Gemini 3.1 Pro Preview.
Resultados agregados (puntaje overall, y costo promedio por problema cuando se reporta):
Claude Opus 4.7: 58.0% (costo promedio $3.54/problema)
Claude Opus 4.6: 55.3%
Claude Sonnet 4.6: 54.5%
Asta v0 (baseline): 53.0%
GPT-5.5: 52.9% (costo promedio $1.61/problema)
Gemini 3.1 Pro Preview: 49.6%
GPT-5.4: 46.5%
Varios puntos importantes a extraer:
Las puntuaciones top mejoraron desde la ronda anterior, pero el benchmark aún está lejos de estar resuelto.
Las mejoras no son uniformes por categoría: los mayores avances aparecen en Code & Execution y End-to-End Discovery; Data Analysis y Literature Understanding mejoran solo moderadamente.
Los costos aumentaron de forma marcada, especialmente en las configuraciones Claude de mayor rendimiento.
GPT-5.5 levanta el techo para modelos no-Claude en tareas componente (código y análisis), pero sigue mostrando debilidades en los flujos de trabajo end-to-end más difíciles.
Un detalle técnico de interés: dentro de las corridas Claude, Opus 4.7 gana puntos pero a un costo alto. Opus 4.7 mejora 2.7 puntos sobre Opus 4.6 en el score overall pero cuesta aproximadamente 62% más por problema. En End-to-End Discovery la ventaja es de 10.2 puntos, sin embargo implica 54% más pasos y 65% más costo. Parte del aumento de tokens se explica por un nuevo tokenizador en Opus 4.7 que escala conteos de tokens por 1.0–1.35x para el mismo texto.
GPT-5.5 propone una relación calidad-costo distinta: queda a 5.1 puntos de Opus 4.7 en el aggregate, pero por menos de la mitad del costo por problema. Es decir, puede ser la opción más eficiente según tu tradeoff calidad-costo. Aun así, su desempeño en End-to-End Discovery revela que dominar componentes (código, literatura, análisis) no garantiza que un agente pueda completar flujos de investigación complejos sin fallas.
En tareas de Data Analysis los costos por problema se mantienen bajos entre $0.18 y $0.44 en las corridas frontera; los flujos de End-to-End siguen siendo los más caros.
Un ejemplo práctico: cuando AstaBench preguntó por E2E-Bench-Hard (llevar una idea de investigación a código funcional y un informe sin scaffold), la mejor corrida original completó solo 3% de las tareas perfectamente end-to-end. Con los nuevos modelos esa cifra sube, pero sigue mostrando que los pasos intermedios (buscar, escribir código, analizar, documentar) pueden funcionar parcialmente sin que la cadena completa se cierre de forma fiable.
Actualización del modelo de scoring y transparencia
AstaBench actualizó los modelos que usan para puntuar ScholarQA-CS2 y End-to-End Discovery siguiendo las rutas de actualización recomendadas por proveedores. El nuevo scorer de End-to-End Discovery es más estricto y penaliza con mayor consistencia resultados fabricados y placeholder code. Esto ayuda a mantener comparaciones justas en la leaderboard pública; las puntuaciones históricas se re-calibraron cuando fue necesario.
Nota sobre costos: las cifras reportadas son el costo promedio medido por el benchmark bajo cada configuración de agente. Incluyen diferencias en harness, uso de herramientas y número de llamadas al modelo. No son una comparación directa de precios de API entre proveedores.
Adopción en la industria: quiénes están integrando AstaBench
AstaBench ya sale del laboratorio. Entre las adopciones y colaboraciones recientes figuran:
UK AI Security Institute (UK AISI) y Arcadia Impact, que trabajan para incorporar AstaBench en Inspect Evals, facilitando su uso por investigadores de seguridad y desarrolladores.
General Reasoning integró una tarea de AstaBench (SUPER-Expert) como entorno en OpenReward, su plataforma para entornos de RL a escala.
Organizaciones que han enviado agentes o mostrado interés: Elicit, SciSpace, Distyl AI y EvoScientist.
Esto convierte a AstaBench en un candidato a estándar de facto para evaluar capacidades científicas de agentes, gracias a su apertura y reproducibilidad.
¿Quieres probar tu agente?
Todo lo necesario está en los repositorios AstaBench y agent-baselines. AstaBench acepta envíos externos a la leaderboard y está trabajando para facilitar el proceso. Si desarrollas agentes que apuntan a investigación científica, esta es una forma práctica y pública de medir progreso y comparar enfoques.
AstaBench no pretende demostrar que la IA ya puede reemplazar al científico. Más bien, ofrece métricas claras para ver qué partes del proceso la IA hace bien hoy, cuáles mejoran rápido y dónde quedan los mayores desafíos para construir agentes realmente capaces de investigación end-to-end.