Anthropic publica la Política de Escalado Responsable 3.0 | Keryc
Anthropic publica la tercera versión de su Responsible Scaling Policy (RSP). ¿Por qué te debería interesar? Porque la RSP es uno de los intentos más claros de una empresa para definir cuándo un modelo de IA exige medidas de seguridad más fuertes, y ahora actualiza ese mapa a la luz de lo que aprendieron en los últimos dos años.
Qué es la RSP y por qué importa
La RSP nació como una regla condicional: si un modelo alcanza ciertas capacidades peligrosas, entonces se aplican salvaguardas específicas. Estas etapas se llamaron ASL (AI Safety Levels). Los niveles bajos, como ASL-2 y ASL-3, estaban bien detallados; los niveles superiores se dejaron abiertos a medida que la tecnología evolucionara.
¿Por qué funciona esta lógica? Porque la IA avanza rápido: hace tres años los grandes modelos eran básicamente chat; hoy navegan, escriben y ejecutan código, y pueden realizar acciones encadenadas. Esa evolución genera riesgos nuevos que las reglas fijas no alcanzan a cubrir. La intentó ser un mecanismo flexible para anticipar y mitigar esos riesgos.
RSP
Lo que funcionó y lo que no
Lo positivo:
Internamente, la RSP obligó a Anthropic a priorizar salvaguardas. Por ejemplo, para cumplir ASL-3 desarrollaron clasificadores de entrada y salida para bloquear contenidos peligrosos.
ASL-3 se activó para modelos relevantes en mayo de 2025 y ha ido mejorando desde entonces.
El ejemplo de Anthropic inspiró marcos similares en otras compañías (mencionan a OpenAI y Google DeepMind) y ayudó a dar forma a primeras normas y códigos (por ejemplo, referencias a SB 53 en California, el RAISE Act en Nueva York, y el trabajo en el EU AI Act).
Lo que no salió como esperaban:
Los umbrales predefinidos resultaron más ambiguos de lo previsto. En muchos casos hubo dudas sobre si un modelo realmente había superado un umbral. La evaluación científica aún no es lo suficientemente concluyente.
En riesgos biológicos la ambigüedad fue evidente: los modelos muestran conocimientos suficientes para activar alertas en muchos tests, pero esos tests no son concluyentes para demostrar riesgo real de forma inequívoca.
La acción gubernamental ha sido más lenta de lo necesario. El debate político prioriza competitividad y crecimiento, y eso complica que haya controles multilaterales rápidos.
Para niveles más altos de riesgo, muchas de las mitigaciones requerirían cooperación internacional o apoyo de seguridad nacional; aisladamente podrían ser imposibles, como sugiere un reporte RAND sobre seguridad de pesos del modelo.
Este balance llevó a Anthropic a reestructurar la RSP antes de llegar a esos niveles superiores que serían difíciles de manejar en solitario.
Novedades clave de la versión 3.0
Anthropic presenta tres cambios principales en la RSP 3.0:
Separar lo que la compañía hará de lo que recomienda a la industria
Ahora hay dos mapas de mitigación: uno con las medidas que Anthropic planea implementar sí o sí, y otro, más ambicioso, que detalla lo que la industria en conjunto debería adoptar para gestionar riesgos avanzados.
Frontier Safety Roadmap
La nueva RSP exige publicar una Frontier Safety Roadmap: objetivos públicos en Seguridad, Alineamiento, Salvaguardas y Política.
No son promesas legales obligatorias, sino metas públicas que Anthropic se compromete a calificar abiertamente. La idea es generar la presión y la claridad que funcionaron en versiones anteriores.
Algunos ejemplos concretos de esa hoja de ruta:
Proyectos de I+D tipo "moonshot" para investigar seguridad de la información a niveles inéditos.
Red-teaming automatizado que complemente los programas de recompensas por bugs.
Medidas sistemáticas para asegurar que Claude se comporte conforme a su constitución.
Registros centralizados de desarrollos críticos, analizados por IA para detectar riesgos internos.
Un "regulatory ladder": propuestas de políticas que escalan según el riesgo.
Risk Reports y revisiones externas
Publicarán Risk Reports cada 3 a 6 meses con un análisis más amplio: capacidades, escenarios de amenaza, mitigaciones activas y una evaluación del nivel de riesgo.
En ciertos casos habrá revisión externa por expertos independientes con acceso poco o nada redactado para evaluar la razonabilidad de los juicios de Anthropic.
Anthropic ya está probando pilotos de este proceso.
La intención: más transparencia, más rendición de cuentas y una línea clara entre lo que una empresa puede hacer sola y lo que requiere acción colectiva.
¿Qué cambia para las empresas, los reguladores y para ti?
Para empresas y desarrolladores: mayor presión pública para documentar objetivos y progreso. Eso facilita auditorías externas y da señales claras a inversores y socios de que la compañía toma en serio la gestión de riesgos.
Para gobiernos y reguladores: la RSP 3.0 ofrece material técnico y ejemplos prácticos que pueden ayudar a diseñar leyes y estándares. Pero Anthropic reconoce que la coordinación internacional y la voluntad política siguen siendo el cuello de botella.
Para la sociedad: más informes públicos y revisiones externas facilitan entender qué tan peligrosos son ciertos modelos y cuándo conviene aplicar controles. No es una solución perfecta, pero mejora la trazabilidad y la discusión pública.
Reflexión final
La RSP 3.0 es una mezcla de realismo y ambición: realista en reconocer límites prácticos y políticos, ambiciosa en exigir transparencia y planes públicos. No resuelve el problema de fondo —la necesidad de acción colectiva frente a capacidades muy avanzadas—, pero pone pasos concretos para que esa acción sea más visible y más responsable.
La IA no es una caja negra que solo entienden los laboratorios. Cuando las empresas publican hojas de ruta y reportes de riesgo, todos ganamos: la conversación pública mejora, los reguladores tienen con qué trabajar, y las empresas se hacen evaluables. ¿Será suficiente? Probablemente no por sí sola. ¿Vale la pena? Sí, porque sin transparencia no hay control, y sin control no hay confianza.