FrontierScience: OpenAI mide IA en tareas de investigación | Keryc
OpenAI presenta FrontierScience, un nuevo benchmark pensado para evaluar si las inteligencias artificiales pueden razonar a nivel experto en física, química y biología. ¿Pueden las máquinas realmente ayudar a hacer ciencia, o solo repetir datos? Esta evaluación busca responder esa pregunta con preguntas difíciles diseñadas por científicos.
Qué es FrontierScience y cómo funciona
FrontierScience es una colección de más de 700 preguntas escritas y verificadas por expertos en las tres áreas principales de la ciencia experimental y teórica: física, química y biología. El objetivo no es probar memoria, sino medir razonamiento científico en dos pistas:
Olympiad: 100 preguntas tipo olimpíada, de respuesta corta, escritas por medallistas internacionales para probar razonamiento preciso y matemático.
Research: 60 subtareas de investigación, más abiertas y complejas, diseñadas por doctores y postdoctorados, evaluadas con una rúbrica de 10 puntos.
La idea es cubrir tanto problemas cerrados donde se puede verificar la respuesta final rápidamente, como tareas de investigación que requieren pasos intermedios y verificación del razonamiento.
Cómo califican las respuestas
Las preguntas tipo Olympiad usan respuestas cortas (número, expresión o coincidencia flexible) para verificar exactitud.
Las preguntas de Research usan una rúbrica con varios ítems independientes, sumando 10 puntos; una solución se considera correcta si obtiene al menos 7/10.
Para escalar la evaluación, OpenAI usa un calificador automático basado en GPT-5 que compara respuestas contra la rúbrica. Esto no reemplaza a un humano experto, pero permite evaluar mayor cantidad de respuestas.
"El benchmark aporta una brújula para medir razonamiento científico experto, aunque no cubre todo lo que hace un científico en su día a día."
Resultados principales y qué significan
Los modelos más avanzados mostraron avances notables, pero con matices:
GPT-5.2 obtuvo 77% en la pista Olympiad y 25% en Research, siendo el mejor rendimiento reportado en este conjunto.
Gemini 3 Pro quedó muy cerca en Olympiad con 76%.
En benchmarks anteriores, la mejora fue rápida: por ejemplo, en GPQA GPT-4 logró 39% en 2023 y GPT-5.2 alcanzó 92% dos años después.
Estos números indican que las IAs ya resuelven problemas estructurados de alto nivel con frecuencia, pero todavía hay mucho camino para las tareas abiertas y creativas propias de la investigación real.
¿Qué puede hacer la IA hoy en un laboratorio o proyecto de investigación?
La experiencia práctica ya muestra usos concretos: búsquedas bibliográficas multidisciplinares y en varios idiomas, ayuda para caminar por demostraciones matemáticas complejas, y exploración rápida de hipótesis que antes tomaban días o semanas. En algunos casos, modelos como GPT-5 han acelerado etapas del trabajo científico de forma medible.
¿Significa esto que la IA va a reemplazar a los científicos? No. Los modelos ayudan a acelerar trabajo estructurado y a explorar conexiones, pero los científicos siguen siendo necesarios para definir problemas, validar resultados y diseñar experimentos en el mundo real.
Limitaciones importantes
FrontierScience avanza la evaluación, pero tiene límites claros:
Se centra en problemas con enunciados relativamente acotados; no mide del todo la generación de hipótesis genuinamente nuevas.
No evalúa interacción con datos multimodales complejos (por ejemplo, video o experimentos físicos reales).
El proceso de creación de preguntas incluyó selección contra modelos internos (descartaron tareas que sus modelos ya resolvían), lo que puede introducir sesgos en la comparación.
El uso de un calificador automático basado en modelos acelera la evaluación, pero no es tan objetivo como la revisión humana en tareas largas y abiertas.
Qué significa esto para la comunidad científica y para ti
Si trabajas en ciencia o en productos que la usan, FrontierScience es una señal útil: los modelos ya son herramientas capaces de acelerar partes del flujo de trabajo. Pero también nos recuerda que la colaboración humano-máquina es la vía segura hoy: la IA propone, el experto valida.
Para el público general, es una demostración de que la IA está dejando de ser un asistente de búsquedas y está entrando en el terreno del razonamiento complejo. ¿Estamos listos para confiar en esas sugerencias? No sin verificación humana.
Hacia dónde va esto
OpenAI planea iterar sobre FrontierScience, ampliarlo a nuevas áreas y combinarlo con evaluaciones más reales que muestren qué descubrimientos nuevos facilitan los modelos. En la práctica, avanzar en razonamiento científico vendrá de mejorar los sistemas generales y de esfuerzos focalizados en capacidades científicas.
El verdadero termómetro no es un benchmark sino los descubrimientos nuevos que la IA ayuda a generar y que los científicos validen. FrontierScience ofrece una brújula útil: nos dice dónde los modelos sobresalen, dónde fallan y en qué debemos trabajar para que sean socios fiables en la investigación.