PreScience: IA que predice el rumbo de la ciencia | Keryc
PreScience es un nuevo banco de pruebas para evaluar si la inteligencia artificial puede anticipar, paso a paso, cómo avanza la ciencia. ¿Puede un modelo, con el registro científico hasta un punto fijo, predecir desde quiénes formarán equipos hasta cuánto impacto tendrá un paper dentro de un año? Esa es la pregunta que plantea este proyecto desarrollado por Ai2 y la University of Chicago, con apoyo de la NSF.
Qué es PreScience y por qué importa
La idea es simple y ambiciosa: romper un avance científico en cuatro decisiones encadenadas que reflejan cómo se hace ciencia en la vida real. En lugar de evaluar tareas aisladas, PreScience trata la secuencia completa: formación de equipos, selección de trabajos previos, generación de la contribución y predicción de impacto. Esto permite simular mes a mes la evolución de un campo.
¿Por qué debería importarte? Porque si queremos herramientas de IA que realmente ayuden a descubrir cosas nuevas, tenemos que evaluar su capacidad para anticipar el proceso completo, no solo escribir abstracts convincentes o estimar citas.
Diseño del dataset y garantías contra filtrado de información
El benchmark está construido con papers reales de arXiv en siete subcategorías de IA (p. ej. NLP, ML, visión por computador). Algunos números clave:
Cobertura de entrenamiento hasta octubre de 2024 y evaluación sobre el año siguiente, para forzar forecasting real.
~100 000 papers objetivo publicados entre octubre de 2023 y octubre de 2025.
Corpus mayor de más de 500 000 papers y cerca de 183 000 autores únicos.
Para evitar atajos y fugas de información, PreScience aplica varias medidas técnicas:
Desambiguación de autores con un método que mejora la calidad del clustering de identidades.
Filtrado de papers objetivo a aquellos con entre 1 y 10 referencias clave, evitando outliers triviales o imposibles.
Alineación temporal explícita de metadatos (citas, h-index, historiales), de modo que los modelos no vean información posterior a la fecha objetivo.
Eso significa que las evaluaciones reflejan verdadera capacidad de previsión y no simplemente recordar lo que ya existe.
Las cuatro tareas composables
PreScience descompone un avance en cuatro tareas, que se pueden evaluar por separado o encadenar en una simulación completa:
Collaborator prediction: dado un autor y el estado del campo, ¿con quién trabajará a continuación? Busca capturar la dinámica social y temática de la formación de equipos.
Prior work selection: dada un equipo, ¿qué trabajos previos citarán? Es una tarea de ranking y relevancia sobre la literatura existente.
Contribution generation: con equipo y referencias fijas, ¿qué título y abstract producirá el paper? Aquí entran modelos generativos de lenguaje y calidad científica.
Impact prediction: una vez que el paper existe, ¿cuántas citas obtendrá en su primer año? Es una tarea regresiva sobre atención futura.
Las tareas se pueden encadenar en un 'science simulator' que, mes a mes, predice equipos, genera papers y los reincorpora al corpus.
Medir calidad de las contribuciones: LACERScore
Comparar abstracts con métricas de similitud superficial no basta. Por eso PreScience introduce LACERScore, un puntaje calibrado de 1 a 10 donde un modelo de lenguaje actúa como juez y se guía con ejemplos de referencia automáticos que anclan cada nivel.
LACERScore está diseñado para aproximarse al juicio humano y, según los autores, alcanza niveles cercanos al acuerdo entre anotadores humanos, superando métricas previas como ROUGE o BERTScore en esta tarea específica.
Resultados técnicos clave
Los experimentos muestran que, aun con modelos de frontera, queda mucho por mejorar en todas las etapas:
Collaborator prediction: una heurística simple basada en frecuencia de coautoría pasada supera a los modelos ML más complejos. Predecir colaboraciones entre personas que nunca han trabajado juntas sigue siendo difícil.
Prior work selection: el mejor baseline obtiene un nDCG de aproximadamente 0.13, lo que indica que identificar exactamente qué papers citará un equipo es una tarea complicada.
Contribution generation: modelos grandes generan abstracts plausibles, pero con una distancia notable respecto al real. GPT-5, el mejor probado, alcanzó en promedio ~5.6/10 en LACERScore. Curiosamente, una simple parafrase del abstract real puntúa mucho más alto, lo que subraya la brecha entre generación y lo que los autores realmente escribieron.
Impact prediction: aunque hay señales predictivas útiles, los errores son notables, y los papers altamente citados son los más difíciles de anticipar con precisión.
La simulación de 12 meses: dónde falla la IA en la secuencia completa
El test más revelador fue componer las cuatro etapas en simulaciones de 12 meses. Resultado principal: la ciencia simulada es sistemáticamente menos diversa y menos novedosa que la real.
Puntos diagnosticados:
Las etapas upstream (formación de equipos y selección de literatura) generan más diversidad que la encontrada en la práctica. Es decir, los insumos eran diversos.
La caída de diversidad ocurre en la etapa de generación. Dado un conjunto diverso de entradas, el modelo tenderá a producir outputs más homogéneos que los escritos por humanos.
En otras palabras: no es que los modelos no puedan imaginar equipos raros o mezclar papers distintos; es que, a la hora de producir la contribución concreta, convergen hacia variantes similares y pierden novedad.
Implicaciones y próximos retos técnicos
PreScience pone en evidencia retos que importan para construir IA que realmente amplifique descubrimiento científico:
Predecir colaboraciones de primera vez requiere modelos que integren señales sociales, institucionales y topológicas de redes más allá de la coautoría histórica.
Mejores métodos de recuperación y razonamiento sobre literatura son necesarios para subir el nDCG en prior work selection.
La generación necesita mecanismos que favorezcan diversidad conceptual y riesgo creativo, no solo fluidez lingüística.
Predecir impacto exige entender difusión, redes y factores de señalización editorial y comunitaria.
Técnicamente, los autores sugieren explorar contextos más ricos (afiliaciones, venues, financiamiento) y artefactos multimodales (figuras, tablas) para mejorar la fidelidad de las predicciones.
Cómo puedes involucrarte hoy
PreScience es un benchmark vivo: incluye corpora de entrenamiento y test, mapeos de autores, implementaciones baseline y scripts de evaluación. Si trabajas en IA aplicada a ciencia o en sistemas de recomendación para investigadores, este es un recurso valioso para probar ideas que no solo optimicen una métrica aislada sino que mejoren el proceso completo de investigación.
¿Te preguntas si la IA nos llevará a una ciencia más estrecha o a una exploración más arriesgada? PreScience muestra que, por ahora, la mayor limitación está en la generación creativa. Mejorar eso no es solo un problema técnico; es cambiar cómo diseñamos objetivos de entrenamiento y evaluación para valorar novedad y diversidad.