DeepSeek-V4: contexto de 1M tokens para agentes

DeepSeek-V4 llega con una promesa clara: permitir agentes que realmente aprovechen ventanas de contexto de hasta 1 millón de tokens sin romperse a mitad de tarea. ¿Suena a ciencia ficción? No tanto. El truco no es solo abrir una ventana gigante, sino bajar el costo por token para que cada pasada de inferencia sea viable en la práctica.

Qué hace diferente la arquitectura

La pregunta clave es simple: puede tu agente mantener una cadena larga de acciones y resultados sin quedarse sin memoria o sin tiempo de cómputo? DeepSeek-V4 ataca ese problema desde la base.

La novedad principal es dividir la atención en dos caminos que se alternan en las capas: Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA). Cada uno tiene un objetivo distinto y juntos reducen tanto los FLOPs por token como el tamaño del KV cache.

CSA comprime la secuencia 4x usando un pooling gobernado por softmax y un sesgo posicional aprendido. Sobre esa secuencia ya comprimida corre un "lightning indexer" (ejecutado en FP4) que selecciona top-k bloques por query. Además hay una rama de ventana deslizante para los tokens más recientes.

Qué hace diferente la arquitectura

Decisiones post-entrenamiento e infraestructura para agentes

Rendimiento: ¿qué tan bien se comporta como agente?

Checkpoints, modos de razonamiento y recomendaciones de uso

¿Qué significa esto para tu proyecto agentico?

Fuente original

¡Mantente al día!

DeepSeek-V4: contexto de 1M tokens para agentes