Harness para desarrollo de aplicaciones largas con IA

He estado leyendo el experimento técnico de Anthropic sobre cómo diseñaron un harness para que modelos como Claude construyan aplicaciones completas en sesiones largas. ¿El truco? Una arquitectura multiagente inspirada en GANs y mucha ingeniería de prompts y evaluación para mantener calidad y coherencia durante horas.

Qué hicieron (resumen técnico)

Anthropic diseñó un sistema de tres agentes: planner, generator y evaluator. La idea central es separar responsabilidades: el planner transforma un prompt corto en un spec ambicioso; el generator implementa características (stack típico: React, Vite, FastAPI, SQLite/Postgres); y el evaluator prueba la app en ejecución usando Playwright MCP para dar feedback accionable.

Tomaron dos lecciones previas como punto de partida: descomponer el trabajo en trozos manejables y usar artefactos estructurados para pasar contexto entre sesiones. Para romper techos de calidad también aplicaron una estrategia GAN-like: un generador crea y un evaluador juzga. El evaluador fue calibrado con ejemplos few-shot y criterios concretos para convertir juicios subjetivos en métricas gradables.

Qué hicieron (resumen técnico)

Experimento en frontend: loop generador-evaluador

Aplicación a full-stack y la arquitectura de tres agentes

Evolución con modelos: resets, compaction y Opus 4.x

Resultados prácticos: DAW y lecciones de coste

Recomendaciones prácticas para desarrolladores que quieran replicar esto

Reflexión final

Fuente original

¡Mantente al día!

Harness para desarrollo de aplicaciones largas con IA