Anthropic detecta ataques de distillation contra Claude | Keryc
Anthropic ha descubierto campañas a escala industrial dirigidas a Claude, su modelo de lenguaje: tres laboratorios —DeepSeek, Moonshot y MiniMax— generaron más de 16 millones de intercambios usando alrededor de 24,000 cuentas fraudulentas para extraer capacidades del sistema. ¿Por qué debería importarte esto aunque no seas ingeniero de IA? Porque no es solo competencia comercial; es un riesgo para la seguridad y para cómo se controla la tecnología a nivel global.
Qué es una distillation y por qué importa
Distillation es, en esencia, entrenar un modelo menos potente con las salidas de uno más potente. Es una técnica legítima cuando la usan los mismos laboratorios para crear versiones más pequeñas o económicas. Pero también puede usarse de forma ilícita: en vez de invertir años y recursos en investigación, alguien extrae capacidades valiosas de otro modelo a gran escala.
¿Qué riesgo trae eso? Los modelos obtenidos por distillation ilícita suelen carecer de las salvaguardas que los creadores originales implementan para evitar usos peligrosos. Eso significa que capacidades para razonamiento complejo, uso de herramientas, o generación de código pueden proliferar sin controles. Y cuando esas capacidades llegan a manos de gobiernos autoritarios o actores maliciosos, las implicaciones van desde campañas de desinformación hasta amenazas reales de ciberseguridad y riesgos biotecnológicos.
Los modelos destilados de forma ilícita pueden perder protecciones esenciales, multiplicando riesgos de seguridad nacional y abuso tecnológico.
Qué encontró Anthropic: quiénes y cómo lo hicieron
Anthropic atribuye con alta confianza estas campañas a tres laboratorios: DeepSeek, Moonshot y MiniMax. Juntos generaron más de 16 millones de intercambios a través de unos 24,000 cuentas fraudulentas. Cada campaña siguió un patrón: muchas cuentas coordinadas, prompts repetitivos y enfoque en las capacidades más diferenciadas de Claude.
DeepSeek: alrededor de 150,000 intercambios. Buscaban razonamiento, evaluaciones estilo recompensa para aprendizaje por refuerzo y alternativas a contenidos censurados. Usaron prompts que pedían detallar el razonamiento interno paso a paso, generando material de cadena de pensamiento a escala.
Moonshot: más de 3.4 millones de intercambios. Se enfocaron en razonamiento agentivo, uso de herramientas, código, análisis de datos y visión por computador. Emplearon cuentas variadas para dificultar la detección.
MiniMax: cerca de 13 millones de intercambios. Orientados a codificación agentiva y orquestación de herramientas. Anthropic detectó la campaña mientras aún estaba activa y observó cómo MiniMax redirigió tráfico para capturar capacidades del nuevo modelo lanzado.
¿Cómo se camuflan? Usan servicios comerciales de proxy que revenden acceso y operan redes enormes de cuentas fraudulentas. Esas redes mezclan tráfico legítimo con peticiones de distillation para evitar ser detectadas, y cuando una cuenta se bloquea otra la reemplaza.
Señales que delatan un ataque de distillation
No es solo el volumen. Anthropic detectó patrones concretos: prompts altamente repetitivos, concentración de solicitudes en pocas capacidades, sincronía entre cuentas y metadatos que apuntan a infraestructura y personas específicas. Un prompt aislado puede parecer inofensivo, pero cuando llega decenas de miles de veces desde diferentes cuentas con la misma intención, el propósito malicioso queda claro.
Cómo responde Anthropic y qué pide
Anthropic está reforzando defensas en varias capas:
Detección: clasificadores y sistemas de huellas de comportamiento para identificar patrones de distillation, incluyendo la extracción de cadena de pensamiento.
Compartir inteligencia: intercambio de indicadores con otros laboratorios, proveedores de nube y autoridades para tener una visión más completa.
Controles de acceso: verificación más estricta en cuentas educativas, programas de investigación y startups, que son vías comunes para el fraude.
Contramedidas: cambios a nivel de producto, API y modelos para reducir la utilidad de las salidas para fines ilícitos sin perjudicar a usuarios legítimos.
Pero Anthropic deja claro que una sola empresa no puede solucionar esto. Se necesita acción coordinada entre la industria, proveedores de infraestructura y hacedores de política.
Implicaciones prácticas para usuarios y responsables de políticas
Para empresas y desarrolladores: revisar y fortalecer controles de acceso, monitorear patrones de uso atípicos y compartir señales con peers.
Para reguladores: entender que las aparentes mejoras de ciertos competidores pueden venir de extracción ilícita. Las restricciones de exportación de chips siguen siendo relevantes por su papel en limitar capacidad de cómputo para entrenar y destilar a gran escala.
Para el público: exigir transparencia y responsabilidad. La tecnología no es neutra; cómo se difunden estos modelos define riesgos reales en salud, seguridad y democracia.
Un llamado a la colaboración y a la vigilancia
Esto no es un problema técnico aislado ni una pelea entre empresas. Es un síntoma de cómo la competencia por capacidades de IA puede erosionar salvaguardas críticas si no hay normas, cooperación y vigilancia compartida. ¿Te sorprende? Puede que no deberías preocuparte solo por la innovación, también por cómo se protege y se distribuye.