Claude crea investigadores automáticos para alineamiento

Imagina darle a un modelo de lenguaje la tarea de investigar cómo alinear mejores modelos. No como asistente, sino como investigador autónomo: proponer hipótesis, ejecutar experimentos, analizar resultados y compartir código. ¿Suena a ciencia ficción? Anthropic publicó hoy un estudio técnico que lo hace real y lo evalúa con métricas claras.

Qué preguntaron y por qué importa

Hay dos preguntas que impulsan este trabajo. Primero: ¿puede la investigación en alineamiento seguir el ritmo acelerado de mejora de los modelos? Segundo: cuando los modelos sean más inteligentes que nosotros, ¿cómo los supervisaremos? Esa segunda pregunta es lo que se llama scalable oversight.

Anthropic aborda ambas preguntas con un problema concreto: weak-to-strong supervision. La idea es simple de explicar pero técnicamente reveladora: tomar un modelo fuerte (potencialmente capaz, sin fine-tuning) y afinarlo usando señales de un modelo débil como "profesor". Si el modelo fuerte consigue interpretar esas señales débiles y mejorar, habremos recuperado parte de la brecha de rendimiento entre profesor y alumno.

Qué preguntaron y por qué importa

Cómo lo probaron (setup técnico)

Métrica: ¿qué es PGR?

Resultados principales (números que importan)

Lecciones prácticas para equipos técnicos

Riesgos, límites y "ciencia alienígena"

Qué significa esto para la comunidad de alineamiento

Fuente original

¡Mantente al día!

Claude crea investigadores automáticos para alineamiento