Claude Code muestra retornos persistentes a la experiencia

16 jun 2026Keryc Díaz6 minutos

Anthropic publica un análisis técnico de ~400,000 sesiones de Claude Code entre octubre de 2025 y abril de 2026. ¿Qué hacen las personas cuando usan un agente que puede ejecutar código por sí mismo? ¿Quién toma las decisiones y qué importa para que la sesión tenga éxito? Este texto resume los hallazgos principales, la metodología y las implicaciones para trabajo técnico y no técnico.

Hallazgos clave

El estudio usa un marco para describir uso interactivo y agentic de coding, basado en análisis que preserva la privacidad de ~400,000 sesiones. Evalúa tipos de tareas, colaboración humano-IA y tasas de éxito.
En promedio, las personas toman la mayoría de las decisiones de planificación (qué hacer, qué cuenta como terminado) mientras que Claude toma la mayoría de las decisiones de ejecución (qué archivos cambiar, qué código escribir). La división es clara: ~70% de las decisiones de planificación las toma el usuario y solo ~20% de las de ejecución.
La experiencia de dominio del usuario importa más que la habilidad de codificar: entre usuarios, la probabilidad de éxito sube con la experiencia en la materia. El salto más grande ocurre al pasar de novato a intermedio; la diferencia entre intermedio y experto es menor.
Con el tiempo (octubre 2025 a abril 2026) disminuyó el tiempo dedicado a depurar casi a la mitad y aumentó el uso hacia flujos end-to-end: desplegar y ejecutar código, analizar datos y producir documentos no código. El valor económico estimado por tarea subió en promedio ~25-27%.

Metodología y métricas (técnico pero claro)

Fuente de datos: sesiones de Claude Code desde CLI, claude.ai y la app de escritorio; exclusiones claras (uso embebido en SDKs/IDEs o llamadas headless como claude -p "<prompt>"). El análisis es privado y agregable.
Clasificación de sesiones: cada sesión se asigna a uno de nueve modos de trabajo (crear, arreglar, testear, orquestar, operar software, entender, planear, analizar datos, escribir documentos). Un modelo lee la transcripción y se valida contra telemetría (por ejemplo, cambios reales en archivos). Concuerdo >90% en varias categorías.
Atribución de decisiones: construyeron un clasificador que detecta decisiones significativas y las etiqueta como planificación o ejecución, y atribuye cada decisión al usuario o a Claude. Resultado típico: el usuario controla planificación, Claude controla ejecución.
Medidas de actividad autónoma: una sesión típica tiene ~4 turnos. Cada prompt del usuario dispara cadenas de acciones por parte de Claude: en promedio ~10 acciones por prompt (cola larga: 2% >100 acciones/prompt). Claude produce en cada turno en torno a 2,400 palabras de salida cuando actúa autónomamente.
Clasificador de expertise: escala de 5 niveles (novato a experto), detecta señales como precisión en las instrucciones, qué pide verificar el usuario y quién corrige a quién. Expertise es task-specific (un experto en contabilidad puede ser novato en Rust).
Éxito verificado vs juicio: usan un clasificador de juicio (¿logró lo que buscaba?) y un clasificador de señales verificables (commits, tests que pasan, confirmación explícita). La combinación da una medida de "verified success".

División de trabajo en la práctica

Estructura: cuando el usuario mantiene control de ejecución (más del 80%), Claude realiza menos acciones por turno (~8). Si Claude asume la planificación, la cadena se hace más larga (~16 acciones).
Diferencias por experiencia: en sesiones de novato cada prompt dispara ~5 acciones y ~600 palabras; en sesiones de experto la misma acción desencadena ~12 acciones y ~3200 palabras. Es decir, la experiencia amplifica cuánto trabajo autónomo hace el agente por instrucción.

Quién usa Claude Code y qué hacen

Ocupaciones: clasificaron ocupaciones según 23 grupos SOC usando señales del proyecto (archivos, artefactos referenciados, vocabulario). No clasifican automáticamente como "software" por el solo hecho de codificar.
Composición: ~56% de sesiones son escribir, arreglar o testear/orquestar código; 17% operar software; 14% planear/explorar; 13% análisis o documentos.
Cambios en el tiempo: la fracción dedicada a arreglar código cayó de 33% a 19%. Operación de software pasó de 14% a 21%. Escritura y análisis aumentaron notablemente.
Valor estimado: comparando tareas con anuncios de freelancers, el valor medio estimado por sesión creció ~27% entre octubre y abril. Esta es una aproximación relativa para comparar tendencias, no un precio absoluto.

Retornos a la experiencia y éxito

Patrones de éxito: sesiones clasificadas como novato alcanzan verified success ~15% y al menos partial success 77%. Las sesiones intermedio-experto alcanzan verified success ~28-33% y partial success ~91-92%.
Recuperación ante problemas: cuando surge un fallo, expertos convierten esos episodios en éxito con más frecuencia que novatos. Entre sesiones con trouble, verified success sube de 4% (novato) a 15% (experto).
Abandono: novatos abandonan (fallan y no escriben líneas de código) con mayor frecuencia (19%) frente a 5-7% para usuarios más experimentados.
Ocupación vs expertise: trabajadores fuera de software tienen tasas de verified success cercanas a las de ingenieros de software (diferencia pequeña: ~5 puntos o menos en sesiones productoras de código). En gran medida, la experiencia demostrada en la sesión importa más que el título laboral.

¿Qué significa para el trabajo y la adopción?

Los agentes aumentan la capacidad de personas con conocimiento del dominio para producir trabajo técnico sin ser programadores profesionales. ¿Esto democratiza la producción de software? Parcialmente: la experiencia de dominio permite dirigir mejor al agente y obtener resultados de mayor valor.
No sustituye la experiencia: Claude hace la implementación, pero la comprensión del problema sigue siendo el principal factor de éxito. Si con el tiempo los modelos comienzan a aportar ese juicio esencial, podríamos ver que los retornos a la experiencia disminuyen; eso es una señal a monitorear.
Cambios en la oferta laboral: si la tendencia continúa, más tareas técnicas pueden convertirse en parte del trabajo cotidiano de distintas profesiones; también puede cambiar qué habilidades se valoran: diagnóstico y especificación de problemas sobre implementación detallada.

Limitaciones y preguntas abiertas

No se observan resultados en el mundo real: el análisis se basa en transcripciones, señales verificables (commits, tests) y estimadores de valor. No mide si el código se usa en producción o su impacto económico real.
Exclusiones: sesión headless y uso embebido en IDEs/SDKs quedan fuera. Es posible que parte importante del uso no interactivo no esté reflejada aquí.
Validación de clasificadores: los modelos leen las transcripciones y los clasificadores muestran buena concordancia con la telemetría, pero la validación a escala es desafiante. Anclar conclusiones en múltiples fuentes y repeticiones es clave.
Señales dinámicas: la relación entre expertise y éxito puede cambiar conforme los modelos mejoren. Monitorizar la evolución temporal es crucial para entender el impacto en el mercado laboral.

Conclusión

El reporte pinta una imagen clara: los agentes de código están asumiendo la ejecución mientras que las personas siguen definiendo el qué. La experiencia en la materia amplifica fuertemente lo que un agente puede lograr por instrucción, y esa experiencia resulta ser más determinante que el título profesional. En términos prácticos, esto sugiere que formarte en el dominio que te interesa puede darte una palanca mucho mayor que aprender solo a programar cuando trabajas con agentes como Claude Code.

Fuente original

https://www.anthropic.com/research/claude-code-expertise

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.

Hallazgos clave

El estudio usa un marco para describir uso interactivo y agentic de coding, basado en análisis que preserva la privacidad de ~400,000 sesiones. Evalúa tipos de tareas, colaboración humano-IA y tasas de éxito.

En promedio, las personas toman la mayoría de las decisiones de planificación (qué hacer, qué cuenta como terminado) mientras que Claude toma la mayoría de las decisiones de ejecución (qué archivos cambiar, qué código escribir). La división es clara: ~70% de las decisiones de planificación las toma el usuario y solo ~20% de las de ejecución.

La experiencia de dominio del usuario importa más que la habilidad de codificar: entre usuarios, la probabilidad de éxito sube con la experiencia en la materia. El salto más grande ocurre al pasar de novato a intermedio; la diferencia entre intermedio y experto es menor.

Con el tiempo (octubre 2025 a abril 2026) disminuyó el tiempo dedicado a depurar casi a la mitad y aumentó el uso hacia flujos end-to-end: desplegar y ejecutar código, analizar datos y producir documentos no código. El valor económico estimado por tarea subió en promedio ~25-27%.

Metodología y métricas (técnico pero claro)

Fuente de datos: sesiones de Claude Code desde CLI, claude.ai y la app de escritorio; exclusiones claras (uso embebido en SDKs/IDEs o llamadas headless como claude -p "<prompt>"). El análisis es privado y agregable.

Clasificación de sesiones: cada sesión se asigna a uno de nueve modos de trabajo (crear, arreglar, testear, orquestar, operar software, entender, planear, analizar datos, escribir documentos). Un modelo lee la transcripción y se valida contra telemetría (por ejemplo, cambios reales en archivos). Concuerdo >90% en varias categorías.

Atribución de decisiones: construyeron un clasificador que detecta decisiones significativas y las etiqueta como planificación o ejecución, y atribuye cada decisión al usuario o a Claude. Resultado típico: el usuario controla planificación, Claude controla ejecución.

Medidas de actividad autónoma: una sesión típica tiene ~4 turnos. Cada prompt del usuario dispara cadenas de acciones por parte de Claude: en promedio ~10 acciones por prompt (cola larga: 2% >100 acciones/prompt). Claude produce en cada turno en torno a 2,400 palabras de salida cuando actúa autónomamente.

Clasificador de expertise: escala de 5 niveles (novato a experto), detecta señales como precisión en las instrucciones, qué pide verificar el usuario y quién corrige a quién. Expertise es task-specific (un experto en contabilidad puede ser novato en Rust).

Éxito verificado vs juicio: usan un clasificador de juicio (¿logró lo que buscaba?) y un clasificador de señales verificables (commits, tests que pasan, confirmación explícita). La combinación da una medida de "verified success".

División de trabajo en la práctica

Estructura: cuando el usuario mantiene control de ejecución (más del 80%), Claude realiza menos acciones por turno (~8). Si Claude asume la planificación, la cadena se hace más larga (~16 acciones).

Diferencias por experiencia: en sesiones de novato cada prompt dispara ~5 acciones y ~600 palabras; en sesiones de experto la misma acción desencadena ~12 acciones y ~3200 palabras. Es decir, la experiencia amplifica cuánto trabajo autónomo hace el agente por instrucción.

Quién usa Claude Code y qué hacen

Ocupaciones: clasificaron ocupaciones según 23 grupos SOC usando señales del proyecto (archivos, artefactos referenciados, vocabulario). No clasifican automáticamente como "software" por el solo hecho de codificar.

Composición: ~56% de sesiones son escribir, arreglar o testear/orquestar código; 17% operar software; 14% planear/explorar; 13% análisis o documentos.

Cambios en el tiempo: la fracción dedicada a arreglar código cayó de 33% a 19%. Operación de software pasó de 14% a 21%. Escritura y análisis aumentaron notablemente.

Valor estimado: comparando tareas con anuncios de freelancers, el valor medio estimado por sesión creció ~27% entre octubre y abril. Esta es una aproximación relativa para comparar tendencias, no un precio absoluto.

Retornos a la experiencia y éxito

Patrones de éxito: sesiones clasificadas como novato alcanzan verified success ~15% y al menos partial success 77%. Las sesiones intermedio-experto alcanzan verified success ~28-33% y partial success ~91-92%.

Recuperación ante problemas: cuando surge un fallo, expertos convierten esos episodios en éxito con más frecuencia que novatos. Entre sesiones con trouble, verified success sube de 4% (novato) a 15% (experto).

Abandono: novatos abandonan (fallan y no escriben líneas de código) con mayor frecuencia (19%) frente a 5-7% para usuarios más experimentados.

Ocupación vs expertise: trabajadores fuera de software tienen tasas de verified success cercanas a las de ingenieros de software (diferencia pequeña: ~5 puntos o menos en sesiones productoras de código). En gran medida, la experiencia demostrada en la sesión importa más que el título laboral.

¿Qué significa para el trabajo y la adopción?

Los agentes aumentan la capacidad de personas con conocimiento del dominio para producir trabajo técnico sin ser programadores profesionales. ¿Esto democratiza la producción de software? Parcialmente: la experiencia de dominio permite dirigir mejor al agente y obtener resultados de mayor valor.

No sustituye la experiencia: Claude hace la implementación, pero la comprensión del problema sigue siendo el principal factor de éxito. Si con el tiempo los modelos comienzan a aportar ese juicio esencial, podríamos ver que los retornos a la experiencia disminuyen; eso es una señal a monitorear.

Cambios en la oferta laboral: si la tendencia continúa, más tareas técnicas pueden convertirse en parte del trabajo cotidiano de distintas profesiones; también puede cambiar qué habilidades se valoran: diagnóstico y especificación de problemas sobre implementación detallada.

Limitaciones y preguntas abiertas

No se observan resultados en el mundo real: el análisis se basa en transcripciones, señales verificables (commits, tests) y estimadores de valor. No mide si el código se usa en producción o su impacto económico real.

Exclusiones: sesión headless y uso embebido en IDEs/SDKs quedan fuera. Es posible que parte importante del uso no interactivo no esté reflejada aquí.

Validación de clasificadores: los modelos leen las transcripciones y los clasificadores muestran buena concordancia con la telemetría, pero la validación a escala es desafiante. Anclar conclusiones en múltiples fuentes y repeticiones es clave.

Señales dinámicas: la relación entre expertise y éxito puede cambiar conforme los modelos mejoren. Monitorizar la evolución temporal es crucial para entender el impacto en el mercado laboral.

Conclusión