Anthropic anunció el 12 de septiembre de 2025 que ha trabajado directamente con el US Center for AI Standards and Innovation (CAISI) y con la UK AI Security Institute (AISI) para evaluar y mejorar las defensas de sus modelos, incluyendo pruebas en versiones de Claude como Opus 4 y 4.1. (anthropic.com)
Qué hicieron Anthropic, CAISI y AISI
La colaboración comenzó como consultas voluntarias y evolucionó hacia un acceso sostenido de los equipos de CAISI y AISI a diferentes etapas del desarrollo de modelos. Es decir, los equipos gubernamentales pudieron probar prototipos antes del despliegue y seguir iterando junto con el equipo técnico de Anthropic. Esto permitió descubrir vulnerabilidades complejas que no siempre aparecen en pruebas puntuales. (anthropic.com)
¿Por qué esto es relevante? CAISI y AISI son organizaciones diseñadas para evaluar riesgos reales de seguridad en IA y cuentan con experiencia en análisis de amenazas, seguridad informática y modelado de ataques, capacidades que complementan la experiencia de las empresas que desarrollan modelos. (nist.gov)
Hallazgos clave: qué vulnerabilidades encontraron
Anthropic detalla varios tipos de ataques que los equipos externos identificaron durante el red-teaming y las pruebas continuas:
- Inyecciones de prompt que explotaban anotaciones falsas, por ejemplo fingir que hubo una revisión humana para evadir detectores. (anthropic.com)
- Jailbreaks universales construidos mediante iteraciones automatizadas, obligando a replantear la arquitectura de las salvaguardas en vez de parchar un solo exploit. (anthropic.com)
- Ataques basados en cifrados y sustituciones de caracteres para ocultar peticiones maliciosas. (anthropic.com)
- Ofuscación de entrada y salida, fragmentando cadenas dañinas dentro de contextos benignos para pasar filtros. (anthropic.com)
- Sistemas automatizados que refinan ataques paso a paso, lo que amplifica la necesidad de defensas que no dependan solo de reglas estáticas. (anthropic.com)
Estos hallazgos no son teóricos. Fueron usados por Anthropic para parchear puntos concretos, mejorar clasificadores y reorganizar partes de su arquitectura de salvaguardas. (anthropic.com)
Lecciones prácticas y enfoque efectivo
De la experiencia conjunta emergen varias lecciones aplicables a cualquier desarrollador de IA:
- Acceso amplio y controlado a los sistemas mejora la detección de vulnerabilidades serias. Probar solo modelos en producción o evaluaciones aisladas deja huecos. (anthropic.com)
- Pruebas iterativas y comunicación diaria con equipos externos permiten descubrir vectores de ataque complejos que requieren tiempo y contexto para aparecer. (anthropic.com)
- Una estrategia de múltiples capas es más sólida: auditorías internas, programas públicos de bug bounty y ejercicios especializados de red-teaming se complementan. (anthropic.com)
Estas prácticas encajan con el papel público que CAISI y AISI buscan desempeñar: facilitar evaluaciones, desarrollar marcos y colaborar con la industria para mejorar la seguridad de sistemas comerciales de IA. (nist.gov)
Qué significa esto para empresas, equipos y usuarios
Si trabajas en producto o seguridad de IA, la lección es clara: no basta con reglas simples o filtros estáticos. Necesitas:
- Probar versiones sin salvaguardas y luego iterar hacia defensas más fuertes.
- Mantener canales de comunicación con evaluadores externos y, cuando sea posible, con organismos de evaluación independientes.
- Combinar pruebas automáticas con auditorías humanas especializadas y programas de recompensa por fallos.
Para usuarios finales y decisores, esto muestra que algunas empresas están invirtiendo en someter sus modelos a pruebas rigurosas con actores externos. Sin embargo, también subraya que las amenazas evolucionan rápido y que la seguridad es un proceso continuo más que un objetivo fijo. (anthropic.com)
Reflexión final
Esta colaboración entre una empresa de modelos de lenguaje y agencias especializadas no es un truco de relaciones públicas. Es una apuesta por construir defensas más robustas mediante transparencia controlada y trabajo conjunto. ¿Significa esto que los modelos son invulnerables? No. Significa que encontrar y corregir fallos exige acceso, tiempo y diversidad de técnicas de prueba.
Si te interesa cómo se traducen estos esfuerzos en cambios concretos para productos que usas todos los días, podemos revisar ejemplos concretos de salvaguardas técnicas o crear una lista de chequeo para equipos de producto y seguridad.