Anthropic impulsa agentes en biología con gget virus | Keryc
Anthropic plantea un cambio práctico: para que los agentes de IA sean útiles en biología, la infraestructura de datos biológicos debe volverse "amigable para agentes". Usando un caso real —recuperación de secuencias virales desde NCBI Virus— muestran que los modelos pueden entender las tareas pero fallan por la fragilidad del ecosistema. Al añadir una capa determinista llamada gget virus, la precisión y reproducibilidad suben casi a 100%.
El problema: calles medievales para autos del futuro
¿Te imaginas conducir un auto de carreras por callejones de un pueblo construido antes de los coches? Esa es la analogía que usa Anthropic: las bases de datos biológicas fueron diseñadas para humanos que hacen clic, no para agentes que ejecutan flujos de trabajo a gran escala.
Los puntos clave son claros:
Formatos idiosincráticos, filtros expuestos solo en interfaces web y metadatos inconsistentes hacen que la recuperación programática sea frágil.
Pequeños errores en la etapa de extracción de datos pueden arruinar análisis posteriores: coordenadas en el build equivocado, mezclar RefSeq y GenBank, confundir segmentos en virus segmentados, o perder registros por metadatos mal estandarizados.
Para tareas científicas la barra es virtualmente 100%: una mala extracción puede sesgar estimaciones de origen de un brote, cobertura de diagnósticos o la evaluación de terapias.
El experimento: VirBench y la prueba de la calle
Anthropic y su equipo crearon VirBench, un benchmark con 120 consultas realistas sobre 40 patógenos. Las preguntas reproducen tareas de vigilancia, diseño de ensayos diagnósticos y construcción de datos de entrenamiento para modelos de proteínas. Un ejemplo: recuperar secuencias de Orthoebolavirus zairense con filtros simultáneos de hospedero, región geográfica, ventanas de fechas, longitud mínima y conteo máximo de N ambiguos.
Resultados sin una capa determinista fueron dispares:
Modelos evaluados: Claude Sonnet 4, Claude Opus 4.7, Biomni, Edison Analysis, GPT-5.2-pro, GPT-5.5.
Precisión media observada: entre 16.9% y 91.3%, dependiente de modelo y consulta.
Reproducibilidad mala: misma consulta repetida daba respuestas muy diferentes (p. ej. Sonnet 4 devolvió 106, 15 y 5 secuencias en tres ejecuciones idénticas).
Consecuencia concreta: árboles filogenéticos basados en extracciones incompletas desplazaron la estimación del tiempo al ancestro común más reciente (TMRCA) de enero de 2014 a años absurdos como 1922 en algunos casos. Eso cambia hipótesis epidemiológicas y decisiones públicas.
La intervención: gget virus, una capa determinista
Para resolver la fragilidad construyeron gget virus, una herramienta que replica la lógica del interfaz web de NCBI Virus pero de forma programática y reproducible. No fue solo llamar a una API: NCBI Virus es un portal que agrega REST, Datasets, E-utilities y fuentes sincronizadas internacionalmente.
Cómo funciona, en términos prácticos:
Coordina llamadas a REST, Datasets y E-utilities para reproducir la semántica del filtrado que los humanos obtienen en el navegador.
Decide qué filtros se pueden delegar a APIs y cuáles deben aplicarse localmente tras descargar registros relevantes.
Maneja batching y paginación para evitar cortes arbitrarios en grandes colecciones como SARS-CoV-2 o Influenza A.
Reconcilia identificadores y preserva información relevante de GenBank en la salida final.
Devuelve salidas estandarizadas y detalladas, con logs que permiten auditar cómo se produjo el conjunto final.
El resultado fue rotundo: con gget virus disponible para los agentes, la precisión subió por encima del 90% para todos los sistemas y alcanzó 99.7% en GPT-5.5. La variabilidad entre corridas prácticamente desapareció y la diferencia entre modelos se redujo notablemente.
Lecciones técnicas y recomendaciones prácticas
Determinismo donde importa
Los motores creativos de los modelos deben convivir con capas deterministas para recuperación de datos, normalización y logging. Eso asegura reproducibilidad, auditable y verificable por científicos.
Diseñar APIs pensando en agentes
Exponer filtrado programático equivalente a la interfaz web, metadatos bien documentados, identificadores persistentes y endpoints para paginación robusta son esenciales.
Conectores, harnesses y pruebas
Implementar SDKs y conectores (como gget virus) que encapsulen la lógica de reconciliación y batching.
Añadir suites de pruebas y benchmarks (p. ej. VirBench-like) para validar que un conector reproduce la semántica esperada.
Registrar y versionar
Metadata de procedencia, logs de filtrado y versiones de API deben acompañar cada extracción para permitir auditoría y reproducción.
Costo, confianza y mantenimiento
Incluso si los modelos mejoran, los conectores siguen valiosos: son más económicos, más rápidos y más fáciles de auditar que reentrenar modelos o depender de razonamientos ad hoc en cada ejecución.
Implicaciones para la ciencia y la salud pública
Esto no es solo una discusión académica. En brotes reales, como el brote de Bundibugyo en la República Democrática del Congo señalado en el reporte, la diferencia entre poder automatizar correctamente la recuperación de genomas históricos o no puede acelerar diagnósticos, validar terapias y clarificar el origen del evento.
Además, democratiza el acceso: con capas deterministas, no necesitas el modelo más caro para obtener datos correctos. Investigadores en entornos con menos recursos pueden ejecutar flujos reproducibles sin depender de la última frontera de modelos.
Reflexión final
Anthropic demuestra que el cuello de botella no es solo la capacidad de razonamiento de los modelos: es la falta de infraestructura determinista y orientada a máquinas. Si queremos que los agentes ayuden en descubrimientos, respuesta a brotes y diseño de fármacos, hay que construir calles pavimentadas para ellos: APIs coherentes, conectores auditables y metadatos estandarizados.
¿La buena noticia? Parte de esa infraestructura ya existe en bibliotecas y herramientas de bioinformática, y gget virus es un ejemplo práctico de cómo unir piezas. ¿La tarea? Escalar esos enfoques, estandarizar interfaces y pensar en agentes como usuarios principales desde ahora.