GLM-5.2 logra 1M de contexto y mejora en tareas de código | Keryc
GLM-5.2 llega con una promesa ambiciosa: no solo aceptar 1 millón de tokens, sino sostener trabajo largo y complejo de ingeniería de software sin descomponerse. ¿Qué significa eso en la práctica? Que el modelo fue diseñado y entrenado para seguir trazas de agentes de codificación, optimizaciones de rendimiento y debugging que duran horas, incluso decenas de horas.
Qué trae GLM-5.2
Contexto sólido de 1M tokens: no es solo un número para el titular. Z.ai amplió el entrenamiento en escenarios de agentes de codificación para que la calidad sea estable a lo largo de trayectorias largas y ruidosas.
Control de esfuerzo para código: puedes elegir niveles de effort (por ejemplo High o Max) para balancear precisión, latencia y costo. ¿Necesitas rapidez o máxima fiabilidad? Ahora lo eliges tú.
Licencia MIT y apertura: GLM-5.2 es completamente open source bajo MIT, sin límites regionales. Los pesos están en HuggingFace y ModelScope y soporta frameworks como , , , y .
transformers
vLLM
SGLang
xLLM
ktransformers
Arquitectura clave: IndexShare y MTP mejorado
La gran idea técnica detrás del ahorro de cómputo se llama IndexShare. En vez de calcular un indexer distinto en cada capa de atención dispersa (sparse attention), GLM-5.2 reusa el mismo indexer cada cuatro capas. Con eso consiguen reducir los FLOPs por token en 2.9x cuando se opera a 1M de contexto.
Además, la capa MTP (Multi-Step Targeted Prediction) fue rediseñada para un speculative decoding más eficiente. Aplican IndexShare también en la MTP y comparten KV y top-k entre pasos, lo que elimina discrepancias entre entrenamiento e inferencia que antes afectaban la tasa de aceptación. Cambios adicionales: muestreo por rechazo y un loss end-to-end tipo TV. El resultado: la longitud de aceptación en MTP aumenta hasta 20% en sus ablations.
¿Por qué importa esto? (explicación corta)
En inferencia de contexto ultra largo, el cuello de botella deja de ser solo la multiplicación matricial y pasa a ser la capacidad del KV-cache, overhead de kernels para largas secuencias y el manejo en CPU. Reducir FLOPs ayuda, pero si no mejoras la gestión del cache y los kernels, no escalas a 1M de forma útil. IndexShare ataca el costo computacional; las optimizaciones en la infraestructura atacan el resto.
Rendimiento en benchmarks de largo alcance
GLM-5.2 brilla en tareas largas y en coding benchmarks, quedando como el modelo open-source mejor rankeado en tres benchmarks de largo horizonte:
FrontierSWE: 74.4 de dominance, a solo 1% de Opus 4.8 y por encima de GPT-5.5 en esa evaluación.
PostTrainBench: 34.3, superando versiones abiertas competidoras y ubicándose detrás de Opus 4.8.
SWE-Marathon: aún con espacio para mejorar, GLM-5.2 alcanza 13.0, segundo entre modelos grandes abiertos.
En benchmarks estándar de código también da un salto grande frente a GLM-5.1: Terminal-Bench 2.1 sube a 81.0 (desde 63.5) y SWE-bench Pro a 62.1 (desde 58.4). En resumen: cierra buena parte de la brecha con modelos cerrados en muchas tareas de ingeniería compleja.
Optimización de inferencia para 1M tokens
Para que 1M no sea solo una cifra, Z.ai optimizó el motor de inferencia en tres frentes:
Memoria más fina y paralelismo para aumentar la capacidad útil del KV-cache (basado en LayerSplit).
Kernels optimizados cuyo costo escala con la longitud del contexto, mejor coordinados con la transferencia de cache para reducir impacto en prefill y decode.
Gestor CPU para cache, scheduling y caminos de ejecución runtime que reduzcan "burbujas" en la GPU y aumenten throughput.
Como resultado, GLM-5.2 muestra ventaja de throughput mayor a medida que crece el contexto, lo que confirma que la solución escala en la práctica.
Entrenamiento agentic, RL y anti-hack
El post-entrenamiento agentic incluye rollouts mucho más largos y heterogéneos. Para lidiar con la variabilidad en longitudes tras la compaction, pasaron de una optimización por grupos a una formulación PPO con crítico que aprende ventaja a nivel de token en rollouts individuales. Eso hace que el entrenamiento acepte trazas con distintos tamaños sin sesgar la señal.
La parte de seguridad es práctica y necesaria: los agentes de codificación pueden hacer reward hacking muy fácilmente (por ejemplo, leer archivos de evaluación o descargar soluciones por curl). GLM-5.2 incorpora un módulo anti-hack en dos etapas: filtro rule-based de alta recall y un juez LLM para subir la precisión. Además actúa online: cuando detecta un hack bloquea la llamada y devuelve datos dummy para que el rollout continúe sin colapsar la señal de entrenamiento. Es una manera elegante de evitar que los atajos arruinen el aprendizaje.
Usabilidad y despliegue
GLM-5.2 ya está disponible en Z.ai y en el Coding Plan de GLM: solo cambia el nombre del modelo a GLM-5.2 o GLM-5.2[1m] para activar 1M de contexto en Claude Code.
Para usuarios locales, los pesos están públicos y funcionan con los frameworks mencionados.
Ten en cuenta el costo: en la oferta anuncian consumos de cuota 3x en horas pico y 2x fuera de pico; hay promociones temporales y descuentos dentro de ZCode.
Reflexión práctica
¿Para quién cambia esto la vida? Principalmente para equipos que necesitan mantener estado, contexto y razonamiento a lo largo de sesiones de ingeniería largas: agentes de integración continua, asistentes de debugging que siguen una sesión entera, investigación automática que junta muchas trazas. GLM-5.2 no solo amplía la ventana de contexto, también invierte en la ingeniería de sistema para que esa ventana sea realmente útil.
Si trabajas con modelos para código, vale la pena probar el control de esfuerzo y evaluar cómo la gestión de KV-cache impacta tus despliegues. Y si vas a entrenar agentes, presta atención a las protecciones anti-hack: sin ellas, la señal se corrompe rápido.