Claude impulsa computación científica con agentes largos | Keryc
Hace unos años la idea de dejar que un agente de IA trabaje días por cuenta propia sonaba a ciencia ficción. Hoy puedes especificar un objetivo claro, darle contexto, un conjunto de reglas y ver cómo un equipo de agentes realiza trabajo numérico complejo mientras tú supervisas ocasionalmente. ¿Suena a magia? Es gestión de proyecto potenciada por modelos capaces de tareas de largo alcance.
Qué es un flujo de trabajo "long-running" para ciencia
Anthropic describe cómo pasar de un bucle conversacional corto a un flujo donde un agente opera autónomamente durante días: planificación inicial, memoria persistente, oráculos de prueba y patrones de orquestación. Esto permite comprimir meses de trabajo humano en días para tareas bien acotadas: reescribir código legacy, reimplementar un solver numérico, o depurar una base de código grande contra una referencia.
En el ejemplo técnico, se usa Claude Opus 4.6 con Claude Code para implementar una versión diferenciable de un solver de Boltzmann cosmológico. Ese solver evoluciona ecuaciones acopladas para fotones, bariones, neutrinos y materia oscura, y su salida se usa para comparar con datos como los de Planck. Hacerlo diferenciable en JAX abre la puerta a inferencia basada en gradientes, acelerando mucho la estimación de parámetros.
Por qué tiene sentido este enfoque
Las tareas que encajan tienen criterios de éxito cuantificables y están bien delimitadas.
Los errores numéricos tienden a propagarse aguas abajo, por eso aquí el agente debe saber trazar la causalidad del bug, no solo ejecutar pasos aislados.
JAX es una elección natural: diferenciación automática y compatibilidad con aceleradores como GPU te dan ventaja sin trabajo extra.
Componentes prácticos del flujo de trabajo
A continuación te explico los patrones que realmente importan si quieres probar esto en un laboratorio académico.
1) CLAUDE.md: la especificación viva
Antes de soltar agentes, diseña un CLAUDE.md en la raíz del repositorio. Ahí se codifican objetivos, criterios de éxito (por ejemplo 0.1% de acuerdo con la implementación de referencia CLASS), restricciones y reglas de commit. Claude mantiene ese archivo en contexto y puede actualizarlo mientras trabaja.
Importante: deja reglas explícitas sobre cuándo commitear, qué probar antes de push y qué no tocar.
2) CHANGELOG.md: memoria de largo plazo
Usa un archivo de progreso (por ejemplo CHANGELOG.md) como memoria portátil del agente. Registra estado actual, tareas completadas, enfoques fallidos y por qué fallaron. Sin esto, las sesiones repetidas volverán a tropezar con los mismos dead ends.
Ejemplo de entrada en el changelog:
Intenté Tsit5 para las ODE de perturbaciones, el sistema es demasiado rígido. Cambié a Kvaerno5.
3) Test oracle: la brújula del proyecto
El agente necesita una forma cuantificable de saber si progresa. Para código científico eso suele ser:
Una implementación de referencia (por ejemplo CLASS en C)
Un objetivo numérico explícito (0.1% en puntos críticos)
Un suite de tests que crece con el proyecto
Instruye al agente a ampliar y ejecutar el suite constantemente para evitar regresiones. En este proyecto, Claude construyó y ejecutó unit tests usando CLASS como referencia.
4) Git como coordinación ligera
Haz que el agente committee y pushee después de cada unidad de trabajo significativa. Esto te da un historial recuperable y visibilidad. Una regla práctica: ejecutar pytest tests/ -x -q antes de cada commit y nunca pushear código que rompa tests existentes.
5) Orquestación en HPC con SLURM y tmux
En un clúster HPC se puede lanzar Claude Code dentro de un tmux en un nodo reservado por SLURM. Un ejemplo de script de trabajo:
#!/bin/bash
#SBATCH --job-name=claude-agent
#SBATCH --partition=GPU-shared
#SBATCH --gres=gpu:h100-32:1
#SBATCH --time=48:00:00
#SBATCH --output=agent_%j.log
cd $PROJECT/my-solver
source .venv/bin/activate
export TERM=xterm-256color
tmux new-session -d -s claude "claude; exec bash"
tmux wait-for claude
Una vez arrancado, te conectas con:
srun --jobid=JOBID --overlap --pty tmux attach -t claude
Puedes adjuntarte para dar dirección puntual como "Lee CHANGELOG.md y toma la siguiente tarea" y luego desacoplarte.
Patrones de orquestación útiles: el Ralph loop y variantes
Los modelos actuales pueden mostrar "pereza agentica": terminan una subtarea antes de completar todo el objetivo. Para eso sirve el Ralph loop: es básicamente un bucle que le pregunta al agente si realmente terminó, y lo reincita si la respuesta no cumple el criterio.
Instalación y ejemplo de uso dentro de Claude Code (notación de plugin):
/ralph-loop:ralph-loop 'Please keep working on the task until the success criterion of 0.1% accuracy across the entire parameter range is achieved.' --max-iterations 20 --completion-promise 'DONE'
Claude repetirá hasta 20 iteraciones y solo cerrará con la promesa 'DONE' cuando chequeos internos confirmen el objetivo.
Otros patrones similares incluyen GSD y variantes adaptadas al dominio, y el comando nativo /loop en Claude Code.
Resultados y limitaciones observadas
En el experimento descrito, Claude trabajó varios días y alcanzó acuerdo sub-porcentual con la referencia CLASS en las salidas principales, como los espectros angulares del CMB. El progreso se trazó con hitos en git y métricas de precisión.
Pero no todo fue perfecto. El agente mostró deficiencias típicas:
Cobertura de tests incompleta: por un tiempo solo probó un punto fiducial, reduciendo su capacidad de detectar errores.
Errores elementales: confusión en convenciones de gauge, o horas perdidas en bugs que un cosmólogo vería de inmediato.
No es aún production-grade en todos los regímenes numéricos.
Aun así, la experiencia demostró que un agente con buen oráculo de prueba, memoria y reglas claras puede acelerar el trabajo de investigación de meses a días.
Implicaciones prácticas y éticas
Tener agentes trabajando noches y fines de semana cambia la economía del laboratorio: cada noche que no ejecutas agentes puede ser progreso perdido. Esto obliga a prioridades nuevas: seguridad del entorno, gasto de compute, y validación humana en puntos críticos.
También hay que mantener transparencia en el registro de cambios y revisar manualmente los pasos científicos clave. Un agente puede acelerar la ingeniería, pero la verificación humana y la interpretación física siguen siendo esenciales.
Al final, el experimento funciona como una receta: define objetivos claros, provee un oráculo de referencia, disciplina al agente con memoria y commits, y usa bucles de rechequeo como Ralph loop. Si tienes compute y proyectos con criterios cuantificables, puedes empezar a delegar noches de trabajo. Aprenderás no solo del código que el agente produce, sino del registro de decisiones que deja atrás: un diario de laboratorio generado por IA que te ayuda a osmosear el conocimiento.