Evaluación de agentes de IA en descubrimiento científico | Keryc
Desde las redes sociales hasta conferencias académicas, se anuncian agentes de IA que diseñan experimentos, escriben código y hasta redactan artículos. ¿Pero realmente están haciendo ciencia o solo imitan pasos sueltos de un proceso científico?
Qué miden ScienceWorld y DiscoveryWorld
Ai2 desarrolló dos benchmarks clave para responder esa pregunta: ScienceWorld (2022) y DiscoveryWorld (2024). Ambos son mundos textuales simulados donde un agente debe ejecutar tareas científicas, pero apuntan a distintos niveles de complejidad.
ScienceWorld replica experimentos de nivel elemental: medir puntos de ebullición, mezclar sustancias, experimentar con circuitos y genética mendeliana. Los agentes interactúan con objetos que se comportan según física y química simples, y deben formular y ejecutar pasos para obtener una medición o reproducir un descubrimiento.
DiscoveryWorld plantea investigaciones de extremo a extremo en contextos ficticios (Planet X). Aquí el agente tiene que generar hipótesis, diseñar experimentos, ejecutar rutinas largas y justificar resultados en áreas como proteómica, datación por radioisótopos o epidemiología.
Ambos usan configuraciones aleatorias para forzar generalización: no basta memorizar soluciones.
Métricas y por qué son importantes
Los benchmarks no solo comprueban si el agente responde correctamente. Miden varias dimensiones:
Tasa de éxito en la tarea (task completion).
Fidelidad al proceso científico: ¿el agente siguió un diseño experimental razonable?
Entendimiento real versus suerte: ¿puede explicar por qué obtuvo ese resultado?
Robustez y generalización ante variaciones paramétricas.
Estas métricas separan la "inteligencia de examen" —responder preguntas cerradas— de la "inteligencia experimental" —planificar y ejecutar investigaciones largas.
Como lo resume Peter Jansen (Ai2): entender un concepto y aplicarlo en un experimento son habilidades distintas.
Resultados: progreso real, pero todavía lejos
Cuando ScienceWorld apareció, modelos que aprobaban exámenes de ciencia fallaban más del 90% en tareas prácticas. En pocos años hubo mejoras notables: suites como TALES (Microsoft Research) reportaron puntajes en los bajos 80s para ScienceWorld a principios de 2025. Eso muestra que los modelos aprenden a planificar y ejecutar secuencias de acciones más largas.
Pero DiscoveryWorld sigue exponiendo límites claros: en tareas de mayor dificultad, los mejores agentes completan alrededor del 20% de los desafíos, mientras que científicos humanos con formación avanzada resuelven cerca del 70% en promedio. Eso nos dice que los agentes aún no dominan investigación abierta con ambigüedad real.
Diseño técnico que explica la dificultad
Algunas razones técnicas por las que estos benchmarks son exigentes:
Long-horizon planning: muchas investigaciones requieren cientos de acciones y planificación jerárquica.
Exploración vs. explotación: el agente debe equilibrar probar nuevas hipótesis con profundizar en pistas prometedoras.
Evaluación de procesos: no basta una respuesta final; hay que juzgar el método.
Variabilidad y aleatoriedad: los parámetros se reconfiguran para evitar sobreajuste.
En términos de evaluación, conviene diferenciar métricas de rendimiento bruto (p. ej. accuracy) de métricas de proceso (p. ej. adherence to experimental protocol), y agregar medidas de eficiencia computacional y sample efficiency cuando sea relevante.
Implicaciones prácticas para investigadores y desarrolladores
Si trabajas en agentes de IA para ciencia, ¿qué deberías hacer ahora?
Evaluar en ambientes distintos: prueba tanto ScienceWorld como DiscoveryWorld para cubrir desde habilidades experimentales básicas hasta investigación end-to-end.
Reportar métricas de proceso: documenta no solo si el agente resolvió la tarea, sino cómo lo hizo.
Priorizar generalización: usa variaciones paramétricas y semillas múltiples para medir robustez.
Investigar planificación jerárquica y memoria a largo plazo: arquitecturas híbridas (LLMs + planificadores simbólicos o módulos de RL con memoria) tienden a mejorar en tareas largas.
Medir coste y latencia: la viabilidad práctica depende del precio rendimiento y la latencia de inferencia.
¿Qué nos dice esto sobre el futuro de los agentes científicos?
Hay progresos palpables: un salto de sub-10% a ~80% en ScienceWorld en tres años no es menor. Pero DiscoveryWorld recuerda que entender y hacer ciencia en entornos complejos es mucho más que producir respuestas correctas. Necesitamos agentes que planifiquen, manejen incertidumbre y expliquen razonamientos.
Si la meta es ayudar a curar enfermedades o descubrir materiales, primero hay que pasar estas pruebas básicas en simulación. Los benchmarks abiertos de Ai2 ofrecen un terreno de juego donde ideas prometedoras pueden volverse resultados reproducibles.
Reflexión final
La IA para ciencia está dejando de ser un titular llamativo y se convierte en un campo medible. ScienceWorld y DiscoveryWorld nos dan herramientas para distinguir entre afirmaciones espectaculares y capacidades reales. ¿Quieres saber si tu agente realmente hace ciencia? Ponlo a prueba donde importan la generalización, el proceso y la explicación.