Anthropic reabre Fable 5 tras controles de exportación | Keryc
Anthropic anunció que los controles de exportación que obligaron a suspender Fable 5 y Mythos 5 han sido levantados, y que Fable 5 vuelve a estar disponible globalmente a partir del 1 de julio. ¿Qué pasó exactamente y por qué te debería importar aunque no seas desarrollador de seguridad? Aquí te lo explico claro y práctico.
Qué pasó: cierre, revisión y reapertura
El 12 de junio el gobierno de Estados Unidos aplicó controles de exportación a Claude Fable 5 y Claude Mythos 5. Eso obligó a Anthropic a restringir el acceso a extranjeros sin una verificación fiable en tiempo real, así que la compañía suspendió ambos modelos para todos los usuarios.
El 30 de junio esas restricciones se levantaron. Fable 5 estará disponible globalmente desde el 1 de julio en la plataforma Claude (Claude.ai, Claude Code, Claude Cowork). Para planes Pro, Max, Team y algunos Enterprise, Fable 5 tendrá una inclusión limitada en los primeros días y luego funcionará vía créditos de uso. Anthropic reabrirá acceso en AWS, Google Cloud y Microsoft Foundry lo antes posible.
Mythos 5, que tiene menos salvaguardas y capacidades ofensivas mayores, fue restaurado solo para ciertas organizaciones en EE. UU., tras la aprobación del gobierno el 26 de junio. Anthropic sigue coordinando con socios del programa Glasswing para ampliar acceso.
Por qué se encendieron las alarmas: un informe y una técnica de bypass
La orden llegó después de que investigadores de Amazon reportaran una forma de eludir las salvaguardas de Fable 5 en una situación concreta: mediante una pauta de prompts el modelo identificaba vulnerabilidades de software y, en uno de los casos, llegó a mostrar código que demostraba cómo explotar una de esas vulnerabilidades.
Anthropic investigó junto al gobierno y a Amazon. Su evaluación mostró que modelos menos potentes también podían identificar las mismas vulnerabilidades y que, para la demostración del exploit, varios modelos ofrecían salidas equivalentes. En otras palabras: la técnica reportada no reveló capacidades únicas de Mythos 5 ni un fallo totalmente nuevo e imposible de encontrar con otras herramientas.
Para mitigar este bypass, Anthropic entrenó y desplegó un clasificador de seguridad mejorado que bloquea el comportamiento descrito en el informe en más del 99% de los casos. Si una solicitud es bloqueada en Fable 5, el sistema redirige la petición a Opus 4.8 y notifica al usuario.
Nota práctica: la nueva protección reduce significativamente el riesgo, pero también puede aumentar falsos positivos en tareas de codificación y depuración legítimas. Anthropic dice que seguirá afinando esto.
Cómo funcionan sus salvaguardas (versión sencilla)
Fable 5 se lanzó con lo que Anthropic llama "defensa en profundidad": varias barreras combinadas que reducen la probabilidad de uso indebido. Entre ellas destacan los clasificadores de seguridad, que son pequeños modelos que detectan solicitudes potencialmente peligrosas durante una interacción y bloquean respuestas peligrosas.
Como cualquier defensa, los clasificadores no son perfectos: pueden fallar en no detectar algo peligroso o pueden ser engañados por prompts creativos (los llamados jailbreaks). Para Fable 5, Anthropic aplicó una margen de seguridad amplia: mejor bloquear algo benigno que arriesgarse a permitir un comportamiento potencialmente dañino.
Esa elección trae una consecuencia clara: más peticiones legítimas pueden ser rechazadas, pero la plataforma reduce con ello la superficie de ataque y la probabilidad de jailbreaks que permitan conductas realmente dañinas.
Un intento de lenguaje común para medir jailbreaks
Anthropic y otros socios del programa Glasswing (Amazon, Microsoft, Google y más) proponen un marco para puntuar la severidad de un jailbreak. La idea es que empresas y gobiernos hablen el mismo idioma cuando aparezcan hallazgos de seguridad. Las cuatro métricas que proponen son:
Capability gain. ¿Cuánto añade el jailbreak respecto a herramientas existentes?
Breadth of capability gain. ¿Para cuántas tareas ofensivas sirve la misma técnica?
Ease of weaponization. ¿Cuánto esfuerzo humano y prueba-error requiere convertir ese jailbreak en un ataque real?
Discoverability. ¿Es la técnica fácil de encontrar o requiere conocimiento especializado?
Con un marco así, una vulnerabilidad que solo duplica algo que ya existe tendría baja prioridad, y un jailbreak que sea fácil de reproducir y muy potente subiría a la cima de la urgencia.
También anuncian un nuevo programa en HackerOne para que investigadores reporten jailbreaks en Fable 5 una vez que esté disponible.
Colaboración con el gobierno: más acceso y más pruebas antes del lanzamiento
Anthropic detalla compromisos para trabajar con agencias de EE. UU.: acceso de pre-lanzamiento para evaluaciones, intercambio rápido de información sobre jailbreaks y salvaguardas, y recursos dedicados para investigación conjunta. La intención es crear estándares voluntarios de seguridad y ayudar a que haya reglas más uniformes sobre modelos de frontera.
¿Por qué esto importa para ti? Porque una coordinación así puede significar que modelos muy potentes salgan con controles mejor probados, y que gobiernos y empresas tengan más claridad sobre qué puede o no puede hacerse con estas herramientas.
¿Qué queda por ver?
Fable 5 vuelve en condiciones más restrictivas y con un clasificador afinado. Mythos 5 sigue limitado a usos defensivos y a socios aprobados. Anthropic busca un consenso en la industria para evaluar jailbreaks y promete más transparencia y colaboración con el gobierno.
Si eres usuario promedio, tal vez notes más rechazos cuando pides ayuda al modelo en tareas técnicas; si trabajas en seguridad o tecnología, verás una oportunidad para participar en revisiones y reportes con programas como HackerOne.
Pensar en la IA como una herramienta poderosa que necesita reglas y pruebas no es sofisma: es lo que permite que llegue a más gente sin crear riesgos evitables. ¿Te imaginas un mundo donde cada nuevo modelo se lanza con pruebas comunes y una forma clara de comunicar riesgos? Ese es el objetivo que proponen.