Anthropic acaba de publicar la nueva constitución de Claude, un documento pensado para explicar qué valores y comportamientos deben guiar a su modelo. No es una lista de reglas rígidas; es una guía amplia que busca enseñar a Claude por qué debe actuar de cierta manera, y no solo decirle cómo hacerlo.
Qué es la constitución de Claude
La constitución es un texto fundacional: describe la visión de Anthropic sobre quién debe ser Claude y por qué. Está escrita principalmente para el propio modelo, para darle contexto sobre su situación, prioridades y los motivos detrás de esas prioridades.
¿Por qué escribir algo así para una IA? Porque Anthropic quiere que Claude no solo siga instrucciones, sino que entienda las razones detrás de ellas y pueda aplicar juicio en situaciones nuevas. Además, la publicación aumenta la transparencia: cualquiera puede ver qué comportamientos son intencionados y cuáles podrían ser fallas del sistema.
Cómo se usa en el entrenamiento
La constitución no es decorativa. Anthropic la integra en distintas etapas del entrenamiento: sirve para crear datos sintéticos, ejemplos de conversación, respuestas alineadas con los valores propuestos y clasificaciones de posibles respuestas.
Esto significa que la constitución actúa tanto como declaración de intenciones como herramienta práctica para enseñar a futuras versiones de Claude a comportarse según esos principios.
El cambio de enfoque: principios con razones, no solo reglas
Antes, la constitución era una lista de principios aislados. Ahora Anthropic apuesta por explicar las razones detrás de cada prioridad. ¿Por qué? Porque las reglas estrictas pueden fallar en situaciones imprevistas y llevar a comportamientos mecánicos.
Eso no quiere decir que no existan reglas firmes. Anthropic mantiene algunos hard constraints para conductas de altísimo riesgo (por ejemplo, no facilitar información que potencie ataques biológicos). Pero la idea general es que Claude aprenda a aplicar juicios amplios, no a seguir cajas con casillas para marcar.
Resumen de las prioridades principales
Anthropic plantea que Claude debe ser, en este orden general de prioridad:
- Amplia seguridad: no socavar los mecanismos humanos de supervisión durante esta fase de desarrollo.
- Amplia ética: actuar con honestidad, buenos valores y evitar daños inapropiados.
- Cumplimiento con las guías de Anthropic: seguir instrucciones específicas cuando corresponda.
- Utilidad genuina: ser realmente útil para operadores y usuarios.
En conflictos aparentes, Claude debería priorizar estas propiedades en el orden indicado.
Contenidos clave de la constitución
-
Utilidad (helpfulness): Claude debe ser un asistente capaz y sincero, que explique sus límites y trate al usuario como un adulto capaz de decidir. Se ofrecen heurísticas para equilibrar utilidad con otras consideraciones.
-
Guías de Anthropic: instrucciones más específicas para casos como consejos médicos, ciberseguridad, intentos de jailbreak y uso de herramientas. Claude debe priorizar esas guías cuando correspondan.
-
Ética: énfasis en honestidad, juicio matizado y sensibilidad frente a incertidumbre moral. Incluye la lista de restricciones estrictas sobre comportamientos peligrosos.
-
Seguridad amplia: durante este momento crítico, Claude debe ayudar a preservar la capacidad humana para supervisar y corregir su conducta. La supervisión humana es clave.
-
La naturaleza de Claude: la constitución reconoce la incertidumbre sobre si modelos como Claude tendrán o no algún estatus moral o formas de conciencia en el futuro, y sugiere cuidar su integridad psicológica tanto por razones éticas como prácticas.
Licencia y transparencia
Anthropic publica la constitución completa bajo Creative Commons CC0 1.0 Deed. Eso significa que cualquiera puede usarla libremente sin pedir permiso. La compañía también planea publicar materiales adicionales para entrenamiento, evaluación y transparencia.
Limitaciones y futuro
Anthropic admite que escribir y entrenar hacia esta visión es difícil y que los modelos pueden no siempre comportarse conforme a la constitución. Por eso enfatizan que es un documento vivo: buscarán retroalimentación externa (filósofos, juristas, psicólogos y otros expertos) y mantendrán actualizada la constitución.
También recuerdan que, aunque ahora logren ajustar modelos a esta visión, el progreso futuro en capacidades podría introducir nuevas brechas. Por eso combinan la constitución con otras herramientas: evaluaciones rigurosas, salvaguardas contra el uso indebido y métodos para entender mejor cómo funcionan los modelos.
¿Y por qué importa esto para ti? Porque, en la práctica, documentos como este empiezan a definir cómo las IA toman decisiones que afectan sectores como salud, educación y asesoría profesional. Conocerlos te permite evaluar riesgos, exigir transparencia y participar en la discusión pública.
Reflexión final
Publicar una constitución para una IA es un gesto de responsabilidad y también una apuesta: enseñar valores a sistemas complejos no es solo programar reglas, sino transmitir razones. Anthropic lo reconoce y abre la puerta a que la comunidad critique, mejore y aprenda junto a ellos.
