Tristan Hume, del equipo de optimización de rendimiento de Anthropic, cuenta cómo su take-home para contratar performance engineers dejó de distinguir a humanos cuando los modelos Claude alcanzaron nueva capacidad. Lo interesante no es solo la anécdota: es la lección práctica sobre cómo diseñar evaluaciones técnicas que sigan teniendo señal en la era de la asistencia por IA.
Por qué el test existía y qué buscaba medir
Necesitaban evaluar a mucha gente sin quemar tiempo de entrevista en vivo. La meta fue clara: un ejercicio atractivo y realista que midiera habilidades de optimización y pensamiento de ingeniería a un nivel de detalle alto.
Los principios de diseño fueron simples y efectivos: representar trabajo real, alta señal (muchas oportunidades para mostrar habilidades), evitar conocimiento de dominio estrecho, permitir loops rápidos de desarrollo y —esto es importante— compatibilidad con asistencia por IA. En Anthropic pedían que la gente pudiera usar IA si quería; la idea era ver qué valor añadido traía la persona cuando la IA estaba disponible.
La simulación técnica: una máquina que exige ingeniería
Construyeron un simulador en Python de un acelerador parecido a TPU con características relevantes para optimización:
memoria scratchpad gestionada manualmente
VLIW: varias unidades ejecutando en paralelo por ciclo
SIMD: operaciones vectoriales que procesan muchos elementos por instrucción
multicore: distribuir trabajo entre núcleos
La tarea central era una traversa paralela de árbol (no orientada a deep learning) para evitar favorecer quienes ya tenían experiencia ML. La progresión del ejercicio iba de paralelo multicore, a SIMD o empaquetado VLIW, con un bug intencional en la versión original para forzar la creación de herramientas de depuración.
Cómo los modelos Claude rompieron el test (y qué hicieron)
La prueba funcionó muy bien al principio: mil candidatos la completaron, y muchos hires surgieron de ahí. Pero al probar modelos internos de Claude, el problema cambió.
Claude Opus 4, en una ventana de 4 horas, superó a casi todos los humanos. Reducir el tiempo a 2 horas y añadir profundidad en el problema (versión 2) volvió a separar a los candidatos, hasta que Opus 4.5 volvió a alcanzar y luego empatar el mejor rendimiento humano en esa franja de tiempo.
Opus 4.5 no solo aplicó microoptimización comunes: con más tiempo y orientación encontrada por un ingeniero, descubrió trucos estructurales (como transformar la computación en vez de los datos) y siguió mejorando tras la marca de 2 horas. El resultado: bajo la restricción temporal del take-home, delegar a Claude Code se convirtió en la estrategia dominante.
Intentos para recuperar señal: más difícil y más raro
Primera estrategia: diseñar una nueva optimización difícil, como la transposición de datos evitando conflictos de banco. Resultado: Claude encontró soluciones inesperadas y, con más presupuesto de pensamiento, resolvió también esa versión.
Segunda estrategia: diseñar problemas fuera de distribución. Inspirados en los juegos Zachtronics, crearon puzzles con conjuntos de instrucciones extremadamente limitados, donde la optimización pide creatividad y construir tus propias herramientas de depuración. Aquí la IA falló más seguido y los humanos con buen juicio técnico volvieron a sacar ventaja.
Puntos claves de esta fase:
No dar visualización ni herramientas: parte de la evaluación es cuánto y cómo construyes herramientas de debugging.
Multiplicidad de subproblemas: reduce varianza y baja la probabilidad de que la IA tenga una sola solución ganadora.
Forzar que el candidato haga tradeoffs de ingeniería y juicio, no solo aplicar recetas conocidas.
Lecciones técnicas y prácticas para diseñar evaluaciones resistentes a IA
Si estás creando entrevistas hoy, estos principios te sirven:
Prioriza problemas fuera de distribución o que requieran re-contextualizar la solución, no solo aplicar recetas.
Mide proceso además de producto: pide que expliques decisiones, qué herramientas construiste y por qué.
Incluye tareas de ingeniería que implican diseño de herramientas, debugging y verificación de corrección.
Usa límites de tiempo razonables: ventanas cortas revelan quién sabe priorizar, pero las ventanas largas siguen siendo útiles cuando el objetivo es medir profundidad.
Diseña múltiples subproblemas independientes para reducir la varianza y evitar una única solución óptima que la IA pueda memorizar.
Evalúa la capacidad de ingeniería humana para dirigir, criticar y simplificar código generado por modelos. El valor humano hoy está en juicio, verificación y diseño del sistema.
Prueba tu propia evaluación con los modelos más potentes que tengas: iteración adversarial contra la IA te muestra dónde falla la señal.
No se trata de prohibir la IA. Se trata de diseñar tareas donde el recibir ayuda no borra la contribución humana.
El reto abierto y los benchmarks
Anthropic publica la versión original del take-home como desafío abierto: con tiempo ilimitado, los humanos todavía superan a los modelos actuales. Aquí algunas cifras de referencia en ciclos del simulador:
2164 ciclos: Claude Opus 4 tras muchas horas en el test harness
1790 ciclos: Claude Opus 4.5 en sesión casual, aproximando al mejor humano en 2 horas
1579 ciclos: Claude Opus 4.5 tras 2 horas en el test harness
1548 ciclos: Claude Sonnet 4.5 tras muchas horas
1487 ciclos: Claude Opus 4.5 tras 11.5 horas en el harness
1363 ciclos: Claude Opus 4.5 con un harness mejorado tras muchas horas
Descárgalo en GitHub y, si lo optimizas por debajo de 1487 ciclos, Anthropic te invita a enviar código y resume a performance-recruiting@anthropic.com.
Reflexión final
La historia de este take-home es una microhistoria de cómo cambia la ingeniería en presencia de modelos potentes. No es que la IA quite trabajo humano: eleva el tipo de pregunta que debemos hacer para evaluar talento. Ahora buscamos creatividad, juicio y la habilidad de construir y verificar sistemas, no solo la habilidad de aplicar un patrón conocido.
Si te interesa diseñar evaluaciones o quieres un reto técnico que ponga a prueba tu ingenio frente a modelos actuales, este caso es una guía práctica y una invitación a competir.