Desde hace años la comunidad se pregunta: ¿pueden los grandes modelos de lenguaje hacer ciencia real, no solo contestar preguntas de libro? Anthropic publicó un estudio técnico que busca esa respuesta con BioMysteryBench, un benchmark diseñado para medidas complejas de bioinformática en datos reales.
Qué es BioMysteryBench y por qué importa
BioMysteryBench es un conjunto de 99 problemas de bioinformática creados por expertos a partir de datos reales o mínimamente procesados (WGS, scRNA-seq, metagenómica, ChIP-seq, Hi-C, metilación, proteómica y metabolómica). Cada pregunta viene con una notebook de validación que demuestra que la señal existe en los datos, aunque encontrarla desde cero pueda ser difícil.
La idea clave es medir tareas de investigación que reflejan el trabajo real: leer datos, instalar herramientas (pip, conda), consultar bases como NCBI y Ensembl, escribir y ejecutar análisis y justificar conclusiones. No es solo saber la respuesta; es reproducir el proceso científico.
