Anthropic diseña pruebas técnicas resistentes a IA

Tristan Hume, del equipo de optimización de rendimiento de Anthropic, cuenta cómo su take-home para contratar performance engineers dejó de distinguir a humanos cuando los modelos Claude alcanzaron nueva capacidad. Lo interesante no es solo la anécdota: es la lección práctica sobre cómo diseñar evaluaciones técnicas que sigan teniendo señal en la era de la asistencia por IA.

Por qué el test existía y qué buscaba medir

Necesitaban evaluar a mucha gente sin quemar tiempo de entrevista en vivo. La meta fue clara: un ejercicio atractivo y realista que midiera habilidades de optimización y pensamiento de ingeniería a un nivel de detalle alto.

Los principios de diseño fueron simples y efectivos: representar trabajo real, alta señal (muchas oportunidades para mostrar habilidades), evitar conocimiento de dominio estrecho, permitir loops rápidos de desarrollo y —esto es importante— compatibilidad con asistencia por IA. En Anthropic pedían que la gente pudiera usar IA si quería; la idea era ver qué valor añadido traía la persona cuando la IA estaba disponible.

Por qué el test existía y qué buscaba medir

Por qué el test existía y qué buscaba medir

La simulación técnica: una máquina que exige ingeniería

Cómo los modelos Claude rompieron el test (y qué hicieron)

Intentos para recuperar señal: más difícil y más raro

Lecciones técnicas y prácticas para diseñar evaluaciones resistentes a IA

El reto abierto y los benchmarks

Reflexión final

Fuente original

¡Mantente al día!

Anthropic diseña pruebas técnicas resistentes a IA