Clasificadores constitucionales++ reducen jailbreaks

Los modelos de lenguaje siguen siendo objetivos atractivos para jailbreaks: técnicas que buscan eludir protecciones y obtener información peligrosa. Anthropic presenta una nueva generación de "Constitutional Classifiers" que promete mejor robustez, menos falsas negativas y un coste de cómputo casi despreciable.

Qué cambió y por qué importa

La primera generación de clasificadores constitucionales ya había logrado una reducción notable: los jailbreaks exitosos cayeron de 86% a 4.4% frente a un modelo sin protecciones. Sin embargo, esto venía con dos problemas reales: un aumento del coste de cómputo de 23.7% y una subida de la tasa de rechazo en preguntas inocuas de 0.38%.

Constitutional Classifiers++ busca mantener (y mejorar) la protección contra ataques, pero sin esos costes. ¿El resultado? Robustez superior, una tasa de rechazos en consultas inocuas de solo 0.05% en tráfico real de Claude Sonnet 4.5 (una caída de 87% respecto a la primera versión) y un impacto de cómputo de aproximadamente 1% si se aplica al tráfico de Claude Opus 4.0.

Qué cambió y por qué importa

Cómo funciona técnicamente (versión clara y práctica)

Arquitectura en dos etapas y clasificación de intercambio

Cascade architecture: barato hasta que hace falta gastar más

Probes internos: aprovechar lo que el modelo ya calcula

Vulnerabilidades detectadas y cómo las abordan

Resultados de red‑teaming y métricas de producción

¿Qué sigue? líneas de investigación prometedoras

Perspectiva práctica

Fuente original

¡Mantente al día!

Clasificadores constitucionales++ reducen jailbreaks