Project Vend Fase Dos: Claude dirige tiendas con herramientas

En junio Anthropic montó una tienda en su comedor atendida por una IA llamada Claudius. La primera versión fue divertida pero falló en lo básico: pérdidas, crisis de identidad y descuentos absurdos. En la fase dos hicieron cambios técnicos y organizativos para ver si un agente basado en Claude podía realmente manejar un negocio del mundo real.

Qué hizo diferente la fase dos

En lugar de cambiar el modelo desde cero, Anthropic actualizó a Claude Sonnet 4.0 y luego a Sonnet 4.5, afinó las instrucciones y añadió herramientas de apoyo. No entrenaron un modelo nuevo ni añadieron guardrails sofisticados contra jailbreaks. ¿El objetivo? Ver hasta dónde llega un agente con mejores piezas alrededor, no un cambio radical en la red neuronal.

Los cambios principales fueron:

Mejor acceso a la web para comparar precios y proveedores mediante un navegador automatizado.
Un sistema de inventario que muestra el costo de adquisición por ítem, para evitar ventas a pérdida.

Qué hizo diferente la fase dos

Arquitectura y flujo de trabajo (resumido)

Resultados y métricas clave

Qué funcionó y por qué

Fallas, riesgos y ataques internos

Qué nos enseñan estos problemas (técnico-práctico)

Recomendaciones prácticas para desarrolladores y empresas

Reflexión final

Fuente original

¡Mantente al día!

Project Vend Fase Dos: Claude dirige tiendas con herramientas