Claude mejora en bioinformática según BioMysteryBench

29 abr 2026Keryc Díaz5 minutos

Desde hace años la comunidad se pregunta: ¿pueden los grandes modelos de lenguaje hacer ciencia real, no solo contestar preguntas de libro? Anthropic publicó un estudio técnico que busca esa respuesta con BioMysteryBench, un benchmark diseñado para medidas complejas de bioinformática en datos reales.

Qué es BioMysteryBench y por qué importa

BioMysteryBench es un conjunto de 99 problemas de bioinformática creados por expertos a partir de datos reales o mínimamente procesados (WGS, scRNA-seq, metagenómica, ChIP-seq, Hi-C, metilación, proteómica y metabolómica). Cada pregunta viene con una notebook de validación que demuestra que la señal existe en los datos, aunque encontrarla desde cero pueda ser difícil.

La idea clave es medir tareas de investigación que reflejan el trabajo real: leer datos, instalar herramientas (pip, conda), consultar bases como NCBI y Ensembl, escribir y ejecutar análisis y justificar conclusiones. No es solo saber la respuesta; es reproducir el proceso científico.

Diseño del experimento y métricas técnicas

99 preguntas en total; 76 fueron resueltas por al menos un humano y por tanto se consideran human-solvable. 23 quedaron marcadas como human-difficult después de controles de calidad (4 preguntas se retiraron por problemas de formulación).
Cada problema fue intentado cinco veces por cada modelo para medir no solo exactitud sino robustez. Un problema resuelto 5/5 indica una estrategia reproducible; 1/5 sugiere una ruta frágil o suerte.
Los modelos se ejecutaron dentro de contenedores con acceso a herramientas canónicas y capacidad para instalar software adicional y acceder a recursos en línea.

Este diseño permite evaluar dos dimensiones: capacidad (¿consigue la respuesta?) y confiabilidad (¿la consigue de forma consistente?).

Resultados clave

Las generaciones recientes de Claude mejoran consistentemente. Modelos como Opus 4.6, Opus 4.7 y Mythos muestran saltos en desempeño y robustez.
Mythos resolvió hasta 30% de las preguntas que el panel humano no pudo resolver. Eso no significa que siempre tenga la razón, pero sí que encuentra señales que los humanos no encontraron.
Para Opus 4.6: en las preguntas human-solvable, el 86% de los problemas que el modelo logra resolver, los resuelve al menos 4/5 veces. En las human-difficult, ese porcentaje cae a 44% y las victorias frágiles (resuelve 1-2 de 5) suben del 9% al 44%.
Sonnet 4.6 muestra una caída similar: 75% → 22% en problemas resueltos de forma fiable, y un aumento de victorias frágiles.
Mythos mejora la confiabilidad en los “solvable”: obtiene 94% de sus aciertos fiables (>=4/5) en ese conjunto.

Conclusión numérica: la precisión global no cuenta toda la historia. La diferencia entre resolver algo siempre y resolverlo a veces es la narrativa más reveladora.

Cómo resuelve Claude: dos estrategias interesantes

Conocimiento agregado: Claude aprovecha su base de conocimiento estructural y meta-analítica (información aprendida de cientos de miles de papers y recursos) para atar piezas que un humano tendría que obtener mediante meta-análisis o búsquedas manuales.
Enfoque por capas: cuando el modelo está inseguro, intenta múltiples métodos y busca convergencia entre líneas de evidencia. Es una especie de experimento en silicio: prueba rutas alternativas y combina resultados.

A veces estas estrategias permiten resolver tareas que un panel humano no pudo. Otras veces, el conocimiento previo del modelo lleva a sesgos y errores cuando la información de su preentrenamiento no aplica exactamente al dato observado.

Ejemplos y lecciones prácticas

Claude puede encontrar patrones de secuencia o señales que no se detectaron con la estrategia humana original. Eso recuerda descubrimientos históricos donde una observación repetida reveló una función biológica (como la secuencia TATA en promotores).
En algunos casos, el conocimiento previo del modelo actuó en contra: si el modelo confía demasiado en información previa equivocada, su resultado puede fallar en datasets concretos.

¿Deberías usar a Claude para investigación bioinformática hoy? Sí, pero como asistente: acelera búsqueda, prueba hipótesis y sugiere rutas. No reemplaza la validación experimental ni el juicio experto humano.

Limitaciones y riesgos técnicos

Para las preguntas que ni humanos ni modelos resuelven, no hay forma de saber si el problema es imposible o solo muy difícil. Las notebooks de validación reducen pero no eliminan esta incertidumbre.
La fiabilidad en problemas difíciles sigue siendo un reto: muchos aciertos en el set human-difficult son frágiles (1-2 de 5), lo que implica que la reproducibilidad de la ruta razonadora no está garantizada.
Preentrenamiento y sesgos del modelo pueden llevar a falsos positivos; siempre es necesario revisar y validar con análisis adicionales y, cuando sea posible, con experimentos.

Cómo encaja esto con otros esfuerzos

Mientras Anthropic publicaba estos resultados, Genentech y Roche lanzaron CompBioBench, un benchmark similar de 100 tareas diseñado con datos sintéticos y aumentados para tener respuestas exactas. Sus resultados concuerdan: Claude Opus 4.6 alcanza cifras altas (81% global, 69% en preguntas difíciles). La convergencia entre equipos sugiere que los modelos frontera ya son colaboradores útiles en bioinformática.

Reflexión final

BioMysteryBench representa un paso importante: pasa de tests tipo examen a medir flujos de trabajo reales en ciencia computacional. Los modelos como Claude ya no solo responden: investigan, combinan evidencias y, en algunos casos, descubren señales humanas-difíciles.

¿Significa esto que la IA sustituirá a los investigadores? No todavía. Significa que la IA es una herramienta cada vez más capaz que puede acelerar análisis, sugerir rutas alternativas y, quizá, ser la primera en resolver algunos enigmas. La responsabilidad sigue siendo humana: diseñar experimentos, validar resultados y decidir qué seguir en el laboratorio.

Fuente original

https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.