ALTK-Evolve: Memoria de largo plazo que mejora agentes IA | Keryc
Imagina un cocinero brillante que memoriza libros de recetas pero olvida tu cocina cada mañana. Excelente siguiendo instrucciones, pero incapaz de aprender que tu horno va caliente o que los clientes piden más sal. ¿Suena familiar? Eso pasa hoy con muchos agentes: re-lectura de logs en vez de aprendizaje real.
Qué problema resuelve
La mayoría de los agentes repiten errores porque no extraen principios de sus experiencias. Volver a volcar transcripciones al prompt es como leer un diario: aporta contexto, no juicio. ALTK-Evolve apunta a cambiar eso. En lugar de almacenar recetas (transcripts), extrae y refina principios operativos —reglas, guías y políticas— que sí se pueden transferir a nuevas situaciones.
¿La idea? Convertir trayectorias crudas en buenas prácticas reutilizables. ¿El beneficio? Que el agente no tenga que empezar como un novato cada vez.
Evolve opera como un lazo continuo entre observabilidad, refinamiento y recuperación just-in-time. Hay dos flujos principales:
Flujo descendente (observación y extracción): captura las trayectorias completas del agente (utterances, pensamientos, llamadas a herramientas, resultados) dentro de una Interaction Layer —por ejemplo Langfuse o cualquier herramienta basada en OpenTelemetry. Extractores plug-in buscan patrones estructurales y generan entidades candidatas (guías, políticas, SOPs) que se persisten.
Flujo ascendente (refinamiento y recuperación): un job de fondo consolida duplicados, poda reglas débiles y eleva estrategias confirmadas. Así evoluciona una biblioteca de alta calidad. En tiempo de ejecución, la capa de aplicación solicita solo las entidades relevantes y las inyecta en el contexto cuando importa.
Algunos componentes clave:
Interaction Layer: observabilidad y punto único de extracción/recuperación.
Extractores plug-in: detectan patrones en trazas para crear candidatos.
Consolidate-and-score job: deduplicación, scoring y garbage collection.
Retrieval con Progressive Disclosure: solo lo relevante entra en contexto, evitando inflar el prompt.
¿Por qué funciona? Principios técnicos
Enseña juicio: transforma sucesos puntuales en estrategias portables que generalizan.
Controla el ruido: el scoring mantiene la memoria útil, no un cajón de cosas inútiles.
Progressive Disclosure: la recuperación es just-in-time, no un volcado masivo de historial.
Técnicamente, esto es una memoria episódica que produce y mantiene entidades estructuradas (guidelines, policies, SOPs) con metadatos de confianza y señales de utilidad. La clave es el pipeline de consolidación que evita crecimiento no controlado y prioriza evidencia empírica.
Evaluación en AppWorld: resultados técnicos
Evolve se probó en AppWorld, un benchmark de tareas multi-step realistas con llamadas a APIs (en promedio 9.5 APIs a través de 1.8 apps). Se utilizó un agente ReAct que recibió la instrucción de tarea más las top-5 guidelines recuperadas de ejecuciones previas (train/dev) y se evaluó en un set unseen (test-normal).
La métrica principal fue Scenario Goal Completion (SGC), que exige consistencia: éxito en variantes del escenario.
Difficulty
Baseline SGC
+ Memory
Δ
Easy
79.0%
84.2%
+5.2
Medium
56.2%
62.5%
+6.3
Hard
19.1%
33.3%
+14.2
Aggregate
50.0%
58.9%
+8.9
Puntos importantes de la evaluación:
Generalización: la ganancia en Test-Normal indica que el agente aprende principios, no memorización exacta.
Escalado de complejidad: las tareas más difíciles obtienen mejoras porcentuales mayores; en Hard hay un 74% de mejora relativa en éxito.
Consistencia: SGC mejora más que la tasa de paso cruda, lo que reduce comportamientos "flaky" entre variantes.
ALTK-Evolve está pensado para encajar con stacks existentes. Opciones destacadas:
Plugin para Claude Code:
claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve@evolve-marketplace
Esto extrae entidades y las guarda en el filesystem usando hooks de Claude Code para recuperación automática.
Modo Lite: demo rápida, fácil de probar pero con limitaciones (no consolida entre sesiones ni hace GC).
Low-code / Pro-code: captura cross-session, consolidación y garbage collection. Compatible con clientes LLM y frameworks de agente populares (OpenAI, LiteLLM, Hugging Face agents).
Integración simple con Codex e IBM Bob: importar altk_evolve.auto y activar un flag para emitir trazas a un UI como Arize Phoenix; luego sincronizar para generar guías sin cambiar tu arquitectura.
Integración con CUGA via MCP: antes de cada ejecución se invoca get_guidelines y después save_trajectory para alimentar el ciclo de aprendizaje. Resultado: un loop de bajo overhead que mejora con el uso.
En resumen: puedes probar en minutos con Claude Code o añadir trazas a tu pipeline existente y aprovechar el consolidate-and-score para obtener ganancias reales.
Recomendaciones técnicas para adopción
Empieza por instrumentar trazas estructuradas: sin buena observabilidad, la extracción falla.
Diseña extractores con esquemas de entidad claros (qué es una guideline, qué metadatos tiene, señales de evidencia).
Ajusta políticas de scoring y TTL para evitar reteners inútiles.
Prioriza la Progressive Disclosure: menos es más en contexto.
Mide con métricas de consistencia (SGC) además de pass-rate para detectar flaky behavior.
Reflexión final
ALTK-Evolve no es magia; es ingeniería de memoria: transformar experiencias en principios accionables. Si tu agente parece aprender poco a pesar de registrar todo, probablemente necesite este paso intermedio de extracción, consolidación y recuperación. Para tareas simples las ganancias son buenas; para tareas complejas pueden ser transformadoras.
Si quieres probarlo rápido, hay demos y tutoriales listos. Star the repo si lo pruebas, eso ayuda a priorizar mejoras y a compartir casos de uso reales.