DIFF Transformer V2: atención diferencial para LLMs

DIFF Transformer V2 llega como una versión más práctica y estable de la idea diferencial en la atención. ¿Qué cambia respecto a DIFF V1 y por qué importa si estás entrenando o desplegando un gran modelo de lenguaje? Aquí te lo explico con técnica pero sin perder la claridad.

Qué es DIFF V2 y por qué lo hicieron

DIFF V2 implementa la operación diferencial directamente en la atención: duplica las cabezas de consulta (query) a 2h, mantiene las cabezas de key-value (KV) en h_kv y luego resta pares de cabezas (head 0 menos head 1, head 2 menos head 3, etc.). La resta se escala por un factor proyectado lambda por token y por cabeza, y luego se reduce de vuelta a la dimensión original antes de W_O, así W_O permanece igual que en el Transformer base.

¿Por qué esta estructura? Porque permite lograr la capacidad expresiva de una atención diferencial sin pagar el coste en caché de valores ni necesitar kernels de atención personalizados. En otras palabras: mantiene velocidad de decodificación comparable al Transformer estándar y facilita uso práctico en LLMs.

Qué es DIFF V2 y por qué lo hicieron

Diseño técnico y piezas clave

Código conceptual

Context RMS y estabilidad numérica

Resultados empíricos y comportamiento en entrenamiento

Costos, parámetros y comparación teórica

Ablaciones importantes y errores comunes

Compatibilidad con sparse attention y consideraciones prácticas

Recomendaciones para equipo de ML y ML infra

Fuente original

¡Mantente al día!

DIFF Transformer V2: atención diferencial para LLMs