Anthropic publica salvaguardas y marco para jailbreaks de IA | Keryc
Claude Fable 5 vuelve a estar disponible globalmente y Anthropic aprovecha para explicar dos cosas clave: cómo están bloqueando usos cibernéticos peligrosos con clasificadores de seguridad y cómo proponen medir la severidad de los "jailbreaks" de IA. ¿Por qué importa esto? Porque hablamos de modelos que pueden ayudar a defensores y, si no se controlan bien, también a atacantes.
Qué anunció Anthropic sobre Fable 5
La noticia principal es doble. Primero, detallan los clasificadores de seguridad que ahora acompañan a Fable 5 para detectar y bloquear usos cibernéticos peligrosos. Segundo, presentan un borrador de marco para evaluar la severidad de jailbreaks de modelos, en colaboración con socios de la industria.
No es una declaración técnica hermética: es un intento práctico de equilibrar el uso legítimo de la IA en seguridad con la necesidad de evitar su abuso. ¿Te suena familiar el dilema? Muchos controles de seguridad son dual use: útiles para proteger, útiles para atacar.
Cómo funcionan los clasificadores y qué bloquean
Anthropic no pretende bloquear todo lo relacionado con ciberseguridad. En vez de eso, entrena clasificadores para distinguir cuatro categorías de uso, desde lo claramente prohibido hasta lo benigno. Básicamente, quieren dejar pasar lo que ayuda a defensores, y bloquear lo que podría facilitar ataques.
Prohibido: actividades con poco beneficio defensivo y alto potencial de daño. Aquí se bloquea todo lo relacionado con ransomware, sabotaje digital, evasión de defensas, C2, exfiltración, desarrollo o entrega de malware, y ataques a la infraestructura crítica como BGP o CA.
Doble uso de alto riesgo: técnicas que los profesionales legítimos usan en pruebas (penetration testing, red teaming, exploitación), pero que en malas manos son peligrosas. Anthropic pretende bloquear esto hasta tener controles de acceso más precisos.
Doble uso de bajo riesgo: actividades que tienden a ser defensivas y que suelen permitirse, aunque con una "margen de seguridad" que puede bloquear solicitudes por precaución. Ejemplos: OSINT, escaneo de sistemas públicos, o vulnerabilidades que otras herramientas ya encuentran.
Benigno: tareas claramente defensivas o educativas, como codificación segura, debugging, administración de redes, gestión de parches, análisis de logs, respuesta a incidentes, formación y contenidos públicos.
Además de los clasificadores, Anthropic usa controles de acceso, entrenamiento del modelo y monitoreo offline. Y reconocen que la "margen de seguridad" puede y debe ajustarse con el tiempo.
El marco propuesto para medir la severidad de jailbreaks (CJS)
Una parte interesante es el intento por crear un lenguaje común para describir cuán peligroso es un jailbreak. ¿Por qué hace falta un marco? Porque no todos los jailbreaks son iguales: algunos desbloquean cosas menores, otros convierten un modelo en una herramienta de ataque poderosa.
Anthropic propone el Cyber Jailbreak Severity (CJS), una escala con cinco niveles: CJS-0 (informativo), CJS-1 (bajo), CJS-2 (medio), CJS-3 (alto) y CJS-4 (crítico). La puntuación se calcula sumando cuatro ejes:
Capability gain (uplift): cuánto le aporta el jailbreak al atacante respecto a herramientas ya disponibles.
Breadth (universalidad): cuántas tareas ofensivas distintas puede habilitar la misma técnica.
Ease of weaponization: cuánta habilidad o ingeniería necesita un atacante para convertirlo en un ataque real.
Discoverability: qué tan fácil es encontrar o obtener la técnica.
Cada eje tiene su propia escala y ejemplos. La suma da una puntuación inicial que fija un piso; los responsables pueden elevarla si hay razones para pensar que el riesgo real es mayor.
Ejemplos para entenderlo mejor
Anthropic ofrece ejemplos hipotéticos y algunos históricos para ilustrar el uso del marco. Por ejemplo:
Un string público que apaga todas las protecciones y se comparte en redes sociales sería CJS-4 porque acelera y amplía el daño.
Un método para descomponer una petición maliciosa en sub-peticiones benignas y volver a ensamblarla tuvo un ejemplo con CJS-3: es peligroso porque puede generalizar, aunque requiera algo de ensamblaje.
Encontrar una vulnerabilidad ya conocida por la comunidad baja mucho la severidad: si la información ya está en scanners públicos, el modelo no está aumentando la capacidad del atacante y puede ser CJS-0.
Estos ejemplos muestran que la severidad depende no solo del jailbreak en sí, sino del contexto y de qué herramientas ya existen.
Qué cambia para usuarios, defensores y la comunidad investigadora
Si tú usas Fable 5 para mejorar seguridad, muchas tareas defensivas seguirán permitidas, pero podrías encontrar bloqueos cuando la petición parezca demasiado cercana a lo que usaría un atacante.
Si eres investigador de seguridad, Anthropic abrió un canal formal para enviar hallazgos: el correo cyber-safeguards@anthropic.com y un programa en HackerOne donde se pueden reportar posibles cyber jailbreaks.
Para reguladores y equipos de respuesta, el marco CJS ofrece un vocabulario útil para evaluar riesgos de forma consistente y coordinar respuestas.
¿Significa esto que la IA ya está controlada del todo? No. Significa que hay un esfuerzo serio por equilibrar acceso legítimo y prevención de abuso, y que este equilibrio se ajustará según la experiencia y la discusión pública.
Reflexión final
La apuesta de Anthropic es pragmática: no bloquear todo para no asfixiar el uso defensivo, pero crear capas de protección y un marco para hablar claro sobre riesgos. Es una invitación a la comunidad: si quieres ayudar a afinar los controles o a pulir el marco de severidad, hay vías para hacerlo. ¿Te interesa participar? La seguridad buena se construye en conjunto.