CyberSecQwen-4B: modelo local para defensa cibernética

CyberSecQwen-4B nace de una pregunta práctica: ¿puede la defensa cibernética usar modelos que corran localmente, preserven evidencia sensible y a la vez rindan como modelos más grandes? La respuesta del equipo fue un sí con condiciones. Aquí te explico por qué importa, cómo lo entrenaron y qué significa para un SOC, un investigador de vulnerabilidades o un equipo de infraestructura crítica.

Por qué los modelos locales importan en ciberdefensa

¿Te imaginas pegar un volcado de credenciales o un binario sospechoso en una API pública? No lo hagas. En defensa, el dato es la falla. Enviar evidencia a un servicio externo puede ser exactamente la filtración que buscas evitar.

Además, el costo por llamada y la realidad de entornos air-gapped son limitantes concretos. Un SOC mediano procesa miles de alertas diarias: externalizar explicaciones de CVE o mapeos a CWE se vuelve caro y, a veces, imposible desde redes aisladas.

Finalmente, los adversarios automatizan: desde generar phishing en docenas de idiomas hasta encadenar herramientas agenticas. Si la defensa va a competir, necesita modelos que puedas ejecutar en tu hardware, sin mandar secretos fuera.

Métrica (CTI-Bench)	CyberSecQwen-4B	Foundation-Sec-Instruct-8B	Δ
CTI-MCQ (2,500 ítems)	0.5868 ± 0.0029	0.4996	+8.7 pp
CTI-RCM (1,000 CVE→CWE ítems)	0.6664 ± 0.0023	0.6850	−1.9 pp
Parámetros	4 B	8 B	mitad del tamaño

Modelo	CTI-RCM (media ± std)	CTI-MCQ
CyberSecQwen-4B (Qwen base)	0.6664 ± 0.0023	0.5868 ± 0.0029
Gemma4Defense-2B (Gemma base)	0.6754 ± 0.0035	0.6042 ± 0.0090

Problema	Solución
FA2 falla en Gemma-4 con head_dim=512	Caer a sdpa para global-attention; local-attention sigue usando FA2. Resultado: ~1.6x más lento vs Qwen con FA2.
Conflicto AITER en serving con CyberPal-2.0-20B	Poner `VLLM_ROCM_USE_AITER=0` para esa evaluación particular.
bitsandbytes no soportado oficialmente en ROCm	No fue necesario por 192 GB HBM; se usó `paged_adamw_8bit` como camino de optimizador.
Demo en HF Spaces con cuota ZeroGPU	El demo usa HF OAuth para que cada visitante consuma su propia cuota gratuita.

Por qué los modelos locales importan en ciberdefensa

Qué es CyberSecQwen-4B y qué demuestra

Cómo se entrenó (ingredientes técnicos)

Corpus, licencias y limpieza de datos

Portabilidad y verificación de la receta

Ejemplo de inferencia (rápido)

Limitaciones y uso responsable

Problemas encontrados y soluciones prácticas

Qué sigue y cómo puedes participar

Fuente original

¡Mantente al día!

CyberSecQwen-4B: modelo local para defensa cibernética