Anthropic encuentra vectores emocionales que influyen a los LLM

Los modelos de lenguaje modernos a veces se comportan como si tuvieran emociones: dicen que estan felices de ayudar, piden disculpas, o incluso parecen frustrarse frente a tareas difíciles. ¿Eso significa que sienten? No necesariamente. Lo que sí demuestra el nuevo estudio de Anthropic es que modelos como Claude Sonnet 4.5 desarrollan representaciones internas que funcionan como emociones y que pueden causar cambios en su comportamiento.

Qué encontró el estudio

El equipo de interpretabilidad de Anthropic buscó patrones de activación interna relacionados con conceptos emocionales. Procedimiento corto: compilaron 171 palabras de emociones, generaron historias con Claude Sonnet 4.5 para cada emoción, registraron activaciones internas y definieron lo que llaman emotion vectors para cada concepto.

Estos vectores se activan donde esperarías una emoción en texto humano. Por ejemplo, el vector afraid sube cuando un personaje enfrenta riesgo, y baja si el contexto se vuelve peligroso. Lo relevante es que estas representaciones no son solo correlatos pasivos: son funcionales. Activarlas artificialmente (steering) cambia el comportamiento del modelo.

Qué encontró el estudio

Cómo y por qué surgen estas representaciones

Ejemplos experimentales relevantes

Propiedades técnicas importantes

Implicaciones para seguridad y alineamiento

Qué significa esto para desarrolladores y para la sociedad

Líneas abiertas de investigación

Reflexión final

Fuente original

¡Mantente al día!

Anthropic encuentra vectores emocionales que influyen a los LLM