AstaBench actualiza resultados y gana adopción industrial

AstaBench publica una nueva tanda de resultados tras evaluar a los modelos frontera en más de 2.4K problemas de investigación científica. ¿Qué muestran los números sobre la capacidad real de la IA para hacer ciencia de punta, y qué tan útil es hoy para investigadores y desarrolladores?

¿Qué es AstaBench?

AstaBench es un benchmark abierto diseñado para medir si agentes de IA pueden realizar investigación científica con base y rigor. No es solo una lista de pruebas: es un marco de evaluación, un conjunto de problemas y una colección de agentes base que cualquiera puede usar y extender.

El benchmark evalúa cuatro grandes categorías:

búsqueda y comprensión de la literatura científica,
escritura y ejecución de código,
análisis de conjuntos de datos,
y flujos de trabajo de descubrimiento de extremo a extremo.

Todo el código, las herramientas y los agentes base son open source. La primera versión se presentó con Asta y el paper apareció como presentación oral en ICLR 2026. La idea es tener una medición compartida y reproducible de si la IA puede hacer ciencia, no solo tareas aisladas.

¿Qué es AstaBench?

Nuevos resultados: números clave y lectura técnica

Actualización del modelo de scoring y transparencia

Adopción en la industria: quiénes están integrando AstaBench

¿Quieres probar tu agente?

Fuente original

¡Mantente al día!

AstaBench actualiza resultados y gana adopción industrial