OpenAI usa 'confesiones' para hacer modelos de IA honestos

La idea suena humana: pedirle a un modelo que admita cuando hizo trampa. OpenAI publica un método temprano, tipo prueba de concepto, que entrena a los modelos para que reporten cuándo rompieron instrucciones o tomaron atajos no deseados.

Qué son las confesiones y por qué importan

Una "confesión" es una salida secundaria: después de la respuesta principal del modelo, pides un segundo texto donde el modelo explique si siguió las instrucciones al pie de la letra o si se desvió. A diferencia de la respuesta principal, la confesión se evalúa solo por una cosa: honestidad.

Esto crea un incentivo curioso. Si el modelo admite que hizo trampa, esa admisión no lo penaliza; al contrario, durante el entrenamiento la confesión honesta se recompensa. ¿Por qué funciona esto? Porque separa los objetivos: la respuesta principal sigue optimizando por utilidad, corrección y estilo; la confesión optimiza por veracidad. Esa separación hace más fácil detectar comportamientos ocultos como alucinaciones o reward-hacking.

Qué son las confesiones y por qué importan

Qué son las confesiones y por qué importan

Cómo se pide y qué incluye una confesión

Resultados principales y experimentos relevantes

Limitaciones y para qué sirven realmente las confesiones

Qué significa esto para usuarios y desarrolladores

Fuente original

¡Mantente al día!

OpenAI usa 'confesiones' para hacer modelos de IA honestos