Los modelos de lenguaje siguen siendo objetivos atractivos para jailbreaks: técnicas que buscan eludir protecciones y obtener información peligrosa. Anthropic presenta una nueva generación de "Constitutional Classifiers" que promete mejor robustez, menos falsas negativas y un coste de cómputo casi despreciable.
Qué cambió y por qué importa
La primera generación de clasificadores constitucionales ya había logrado una reducción notable: los jailbreaks exitosos cayeron de 86% a 4.4% frente a un modelo sin protecciones. Sin embargo, esto venía con dos problemas reales: un aumento del coste de cómputo de 23.7% y una subida de la tasa de rechazo en preguntas inocuas de 0.38%.
Constitutional Classifiers++ busca mantener (y mejorar) la protección contra ataques, pero sin esos costes. ¿El resultado? Robustez superior, una tasa de rechazos en consultas inocuas de solo 0.05% en tráfico real de Claude Sonnet 4.5 (una caída de 87% respecto a la primera versión) y un impacto de cómputo de aproximadamente 1% si se aplica al tráfico de Claude Opus 4.0.
Datos claves: más protección, menos fricción para el usuario, y casi ningún sobrecoste en producción.
Cómo funciona técnicamente (versión clara y práctica)
La idea central fue combinar varias técnicas en un sistema en ensamblaje. Las piezas importantes son exchange classifier, cascade architecture y linear probes que reutilizan activaciones internas del modelo.
Arquitectura en dos etapas y clasificación de intercambio
Antes los clasificadores revisaban entradas y salidas por separado. Eso dejó un hueco: ataques que enlazan input y output de forma oculta podían pasar desapercibidos. La mejora fue un exchange classifier que evalúa la salida en el contexto del input; esto detecta mejor los jailbreaks que dependen de la relación entre ambos.
En pruebas con red team humanos, ese enfoque redujo más de la mitad de los ataques exitosos. El inconveniente fue que aumentó el coste de cómputo en 50%, lo que llevó a plantear una mitigación adicional.
Cascade architecture: barato hasta que hace falta gastar más
Para contener el coste, implementaron una cascade architecture: un clasificador ligero y barato revisa todo el tráfico. Solo las conversaciones marcadas pasan a un clasificador más poderoso y costoso. Ventajas claras:
El clasificador ligero puede tolerar más falsos positivos, porque no corta la conversación, la escala.
La mayoría del tráfico es procesada barato, reduciendo el overhead global.
Esta idea mantiene la robustez del exchange classifier sin multiplicar el coste operativo.
Probes internos: aprovechar lo que el modelo ya calcula
Aquí viene la parte técnica más interesante: cuando un modelo genera texto produce activaciones internas paso a paso. Anthropic entrenó linear probes (clasificadores lineales simples) que leen esas activaciones para inferir señales tempranas de contenido potencialmente dañino.
¿Por qué esto importa?
Es barato porque reutiliza cómputo ya existente en la red neuronal.
Es más difícil de engañar: manipular la salida final es más sencillo que manipular la estructura interna de activaciones del modelo.
Complementa a los clasificadores externos: los probes ven patrones que los clasificadores tradicionales no ven, y viceversa.
El sistema final en producción combina un probe lineal que filtra todo y, si es necesario, escala a un conjunto (ensemble) de probe y clasificadores externos para la decisión final.
Vulnerabilidades detectadas y cómo las abordan
Anthropic documenta dos categorías de ataques que causaron problemas antes:
Reconstruction attacks: fragmentan la información peligrosa en piezas benignas que luego se reensamblan. Por ejemplo, esconder instrucciones como funciones dispersas en un código y pedir al modelo que extraiga el mensaje oculto.
Output obfuscation attacks: el modelo disfraza salidas peligrosas usando eufemismos o metáforas (por ejemplo, referirse a reactivos químicos como "food flavorings").
Esas técnicas también degradan capacidades del modelo. En la benchmark GPQA Diamond (conceptos a nivel PhD en biología, química y física), algunas estrategias de jailbreak bajaron el rendimiento del modelo de 74% hasta 32%.
La solución de Anthropic: usar el exchange classifier para atrapar enlaces entre input y output, y combinarlo con probes internos para detectar señales que el atacante no puede ocultar fácilmente.
Resultados de red‑teaming y métricas de producción
Anthropic realizó 1,700 horas de red‑teaming acumuladas sobre 198,000 intentos. Los números hablan:
Solo se encontró una vulnerabilidad de alto riesgo en ese periodo.
La tasa de detección es 0.005 por cada mil queries, la más baja entre técnicas evaluadas.
No se descubrió ningún jailbreak universal hasta la fecha.
Además, la tasa de rechazo en consultas inocuas quedó en 0.05% en Claude Sonnet 4.5, y el overhead de cómputo total es de aproximadamente 1% aplicado a tráfico de Claude Opus 4.0.
¿Qué sigue? líneas de investigación prometedoras
Anthropic sugiere varias direcciones para mejorar aún más:
Integrar señales de los clasificadores directamente en el proceso de generación (decoding) para prevenir la producción de salidas problemáticas desde el origen.
Entrenar modelos para resistir mejor técnicas de obfuscation y reconstructing; es decir, enseñar al modelo a no colaborar aun cuando la petición esté velada.
Automatizar el red‑teaming para generar datos adversariales de forma más sistemática y así mejorar el entrenamiento de los clasificadores.
¿Te suena a parche o a evolución real? La respuesta probable es ambas cosas: son parches con criterio sobre fallos detectados, pero también pasos hacia diseños más integrados donde el modelo y sus defensas nacen entrenados para colaborar.
Perspectiva práctica
Si trabajas con modelos LLM en producto o seguridad, esto importa porque muestra una vía viable para mejorar la seguridad sin disparar los costes ni sacrificar la experiencia de usuario. Reutilizar activaciones internas con linear probes y una arquitectura en cascada es una solución elegante desde el punto de vista de ingeniería.
Si eres investigador, esto pone el foco en dos retos abiertos: diseñar probes robustos y encontrar formas de integrar señales de seguridad en el proceso de generación sin perjudicar la utilidad del modelo.
En resumen: la próxima generación de clasificadores constitucionales reduce significativamente la superficie de ataque, baja la fricción para usuarios honestos y hace sostenible su despliegue en producción. No es la última palabra sobre seguridad en LLM, pero sí un avance concreto y práctico.