Anthropic mide autonomía de agentes IA en práctica

18 feb 20265 minutos

Anthropic publica un análisis empírico sobre cómo la gente usa agentes de IA en el mundo real: cuánto los deja actuar sin supervisión, en qué dominios se emplean y qué tan riesgosas son las acciones que ejecutan. ¿La sorpresa? La autonomía práctica todavía va detrás de lo que los modelos pueden hacer, pero está creciendo rápido en la cola de usos más ambiciosos.

Qué midieron y por qué importa

¿Por qué leer esto si tú no trabajas en IA? Porque los agentes ya están en tu correo, en herramientas de desarrollo y empezando a entrar en finanzas y salud. Comprender cuánto control humano se mantiene y dónde emergen riesgos es clave para diseñar productos seguros, reglas útiles y políticas inteligentes.

Anthropic analizó millones de interacciones usando dos fuentes complementarias:

Claude Code: permite reconstruir sesiones completas y medir cuánto tiempo el agente trabaja sin intervención humana (turn duration) y cómo cambian los patrones con la experiencia del usuario.
Tráfico público del API: gran cobertura de despliegues reales en miles de clientes, analizado a nivel de llamadas a herramientas (tool calls). Ofrece amplitud pero no la capacidad de ensamblar sesiones enteras.

Ambas fuentes se procesaron con infraestructura de privacidad para extraer métricas de autonomía, riesgo y supervisión humana.

Metodología y métricas (technical)

La definición operativa: un agente es un sistema que usa herramientas (ejecutar código, llamar APIs externas, enviar mensajes) para actuar sobre el mundo. Medirlo implica dos enfoques con tradeoffs:

API pública: analiza tool calls individualmente. Ventaja: escala y diversidad. Limite: no reconstruye flujos largos ni sesiones.
Claude Code: sesiones completas. Ventaja: puedes medir turnos, pausas y tasas de intervención. Limite: sesgo hacia ingeniería de software.

Métricas clave usadas:

turn duration: tiempo entre inicio y parada (por finalización, pregunta del agente o interrupción humana). Sirve como proxy de autonomía práctica.
percentiles extremos (99.9th) para capturar usos muy ambiciosos.
puntuaciones de riesgo y autonomía de 1 a 10, asignadas por Claude sobre cada tool call para agrupar acciones en clusters.
indicadores de presencia humana y salvaguardas (permisos, aprobaciones manuales, acciones irreversibles).

Importante: estas medidas comparan lo que ocurre en práctica frente a evaluaciones de capacidad controladas (por ejemplo METR). No son intercambiables, pero se complementan.

Hallazgos clave

La cola larga de autonomía crece. En Claude Code, los turns más largos (99.9th) casi se duplicaron entre oct 2025 y ene 2026: de ~25 minutos a ~45 minutos. La mediana sigue siendo corta (~45 segundos), pero esa cola sugiere tareas cada vez más ambiciosas.
Usuarios experimentados confían más, pero vigilan. La proporción de sesiones con auto-approve completo sube de ~20% en nuevos usuarios a >40% en usuarios con cientos de sesiones. Al mismo tiempo, la tasa de interrupciones por turno aumenta (de ~5% en novatos a ~9% en usuarios experimentados). ¿Contradicción? No: los usuarios pasan de aprobar paso a paso a monitorear y corregir cuando hace falta.
El agente también hace supervisión. Claude Code pide aclaraciones con mayor frecuencia en tareas complejas y lo hace más que las interrupciones humanas en esos casos. Enseñar a un modelo a reconocer su incertidumbre y detenerse es una forma de seguridad.
Riesgo presente pero concentrado. En el tráfico público, la mayoría de tool calls son de bajo riesgo y reversibles. Hallazgos cuantitativos: ~80% de llamadas provienen de agentes con al menos una salvaguarda, ~73% muestran alguna forma de humano en el lazo (probablemente un techo superior) y solo ~0.8% parecen irreversibles (por ejemplo enviar un correo real).
Dominio inicial: software. Casi 50% de la actividad agentic corresponde a ingeniería de software. Hay experimentos emergentes en salud, finanzas y ciberseguridad, pero aún no a escala.
Algunas acciones en el borde. Clusters con alta autonomía y/o alto riesgo existen (ejecución automática de trades, acceso a registros médicos, pruebas de intrusión), aunque muchos podrían ser evaluaciones o red-teaming más que operaciones de producción.

Comparación con evaluaciones de capacidad

Evaluaciones tipo METR miden lo que un modelo puede lograr en condiciones ideales. Este estudio mide lo que los agentes hacen en despliegue real: pausas, preguntas, interrupciones humanas y salvaguardas reducen la latitud práctica. Resultado: la capacidad técnica supera la autonomía ejercida por los despliegues actuales, pero la brecha está disminuyendo en la cola de usos ambiciosos.

Limitaciones importantes (sé crítico con los números)

Solo datos de Anthropic: otras plataformas pueden mostrar patrones distintos.
Dos fuentes complementarias pero imperfectas: el API público sobre-representa workflows que usan muchas tool calls; Claude Code está sesgado a software.
Clasificaciones y puntuaciones fueron generadas por Claude, y no hubo inspección humana directa de cada item por privacidad.
Ventana temporal: finales 2025 a principios 2026. El paisaje cambia rápido.
No hay una forma robusta de unir requests independientes del API en sesiones coherentes, lo que limita inferencias sobre flujos largos.

Recomendaciones prácticas (para desarrolladores y reguladores)

Invierte en monitoreo post-despliegue. Lo que pasa en producción puede divergir mucho de evaluaciones previas; necesitas infraestructura que rastree cómo se usan las herramientas en el tiempo y en contexto, preferiblemente preservando privacidad.
Entrena modelos para reconocer y comunicar su incertidumbre. Que el agente pregunte antes de actuar es una seguridad activa; es una propiedad entrenable y práctica.
Diseña interfaces para supervisión efectiva, no para cumplir con rituales. Forzar la aprobación manual de cada acción puede generar fricción sin mejorar la seguridad; mejor proveer visibilidad confiable y mecanismos simples para intervenir.
Evita mandatos rígidos sobre patrones de interacción. Más útil que exigir aprobaciones permanentes es garantizar que los humanos estén en posición de monitorear y detener el agente cuando importe.

Reflexión final

La autonomía en agentes no es solo una propiedad del modelo: es co-construida por el modelo, el usuario y el producto. Los números de Anthropic muestran que la práctica todavía está por detrás de la capacidad, pero la adopción y la complejidad de tareas suben rápido. Si diseñamos bien la supervisión humana, el monitoreo post-despliegue y modelos que sepan cuándo pedir ayuda, podemos escalar agentes útiles sin regalar seguridad.

Fuente original

https://www.anthropic.com/research/measuring-agent-autonomy

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.