Gemma 4 acelera inferencia con drafters MTP

hace 3 horasKeryc Díaz3 minutos

Hace apenas semanas Google lanzó Gemma 4, su familia de modelos abiertos más capaz, y ya suma millones de descargas. Ahora la noticia es una mejora práctica: los nuevos drafters de Multi-Token Prediction (MTP) prometen acelerar la inferencia hasta 3x sin perder calidad ni lógica en las respuestas.

¿Qué problema están resolviendo?

¿Te ha pasado que una aplicación tarda en responder justo cuando más la necesitas? Eso ocurre porque los modelos grandes gastan mucho tiempo moviendo parámetros entre memoria y procesador para generar un solo token. Es decir, la CPU o GPU queda esperando, subutilizada, y la latencia se dispara, sobre todo en hardware de consumo.

Los desarrolladores ven esto como el cuello de botella para poner modelos en producción o ejecutar asistentes poderosos en dispositivos locales. ¿La consecuencia? Experiencias menos fluidas y menos aplicaciones que funcionan realmente en el borde o en tu portátil.

¿Qué es la decodificación especulativa y qué hace `MTP`?

La decodificación especulativa separa la propuesta de tokens de su verificación. En lenguaje sencillo: un modelo ligero (el drafter MTP) sugiere varios tokens a la vez, aprovechando tiempos de cómputo que quedarían ociosos, y el modelo principal (por ejemplo Gemma 4 31B) verifica esas sugerencias en paralelo.

Si el modelo principal está de acuerdo con lo propuesto, acepta toda la secuencia en una sola pasada y hasta genera un token adicional. ¿Resultado? Puedes obtener una secuencia completa en el tiempo que normalmente tomaría generar un solo token.

Ventaja clave: más velocidad sin degradar la precisión ni el razonamiento, porque la verificación final la hace siempre el modelo grande.

Beneficios prácticos para desarrolladores y usuarios

Mejor tiempo de respuesta: chats casi en tiempo real, asistentes de voz más fluidos y agentes que planean varios pasos sin pausa.
Desarrollo local más potente: ejecutar Gemma 4 26B o 31B en computadoras personales y GPUs de consumo es más viable gracias a la aceleración.
Mejor rendimiento en el borde: dispositivos móviles y embebidos generan salidas más rápido y consumen menos batería en muchos escenarios.
Calidad intacta: la comprobación final asegura que no pierdes la capacidad de razonamiento que ofrece Gemma 4.

Un vistazo simple a cómo lo logran (sin entrar en toda la matemática)

Para que MTP sea rápido y preciso, los drafters comparten información con el modelo principal: reutilizan activaciones y la caché de claves y valores (KV cache), evitando recalcular contexto ya procesado. En modelos de borde E2B y E4B, también aplicaron técnicas para acelerar la etapa de embebido cuando esta era el cuello de botella.

Además, hay optimizaciones específicas de hardware. Por ejemplo, en Apple Silicon algunos modelos rinden mejor cuando se procesan varias solicitudes a la vez (batch sizes de 4 a 8), y en Nvidia A100 se observan mejoras similares con batching. Todo esto suma para alcanzar esos ~2x a 3x de ganancia en condiciones prácticas.

¿Cómo puedes probarlo hoy?

Los drafters MTP para Gemma 4 ya están disponibles bajo la licencia Apache 2.0. Puedes descargar pesos y documentación en plataformas como Hugging Face o Kaggle, y empezar a integrarlos con herramientas y runtimes populares (transformers, MLX, VLLM, SGLang, Ollama). También hay demos y paquetes para Android e iOS en la Google AI Edge Gallery.

Si eres desarrollador, revisar la documentación oficial y el explainer técnico te dará los detalles para conectar un drafter con tu modelo objetivo y aprovechar la caché compartida y otras optimizaciones.

Reflexión rápida

No es un cambio cosmético: MTP lleva una idea de investigación a una mejora práctica que reduce latencia real en aplicaciones del mundo real. Si trabajas en asistentes, agentes autónomos o experiencias que requieren interactividad inmediata, vale la pena probar estos drafters. ¿Te imaginas tu app respondiendo tres veces más rápido sin perder inteligencia? Eso está disponible ahora.

Fuente original

https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.

¿Qué problema están resolviendo?

¿Qué es la decodificación especulativa y qué hace MTP?

Ventaja clave: más velocidad sin degradar la precisión ni el razonamiento, porque la verificación final la hace siempre el modelo grande.

Beneficios prácticos para desarrolladores y usuarios

Mejor tiempo de respuesta: chats casi en tiempo real, asistentes de voz más fluidos y agentes que planean varios pasos sin pausa.

Desarrollo local más potente: ejecutar Gemma 4 26B o 31B en computadoras personales y GPUs de consumo es más viable gracias a la aceleración.

Mejor rendimiento en el borde: dispositivos móviles y embebidos generan salidas más rápido y consumen menos batería en muchos escenarios.

Calidad intacta: la comprobación final asegura que no pierdes la capacidad de razonamiento que ofrece Gemma 4.

Un vistazo simple a cómo lo logran (sin entrar en toda la matemática)

¿Cómo puedes probarlo hoy?

Reflexión rápida

¿Qué problema están resolviendo?

¿Qué es la decodificación especulativa y qué hace MTP?

Beneficios prácticos para desarrolladores y usuarios

Un vistazo simple a cómo lo logran (sin entrar en toda la matemática)

¿Cómo puedes probarlo hoy?

Reflexión rápida

Fuente original

¡Mantente al día!

¿Qué problema están resolviendo?

¿Qué es la decodificación especulativa y qué hace MTP?

Beneficios prácticos para desarrolladores y usuarios

Un vistazo simple a cómo lo logran (sin entrar en toda la matemática)

¿Cómo puedes probarlo hoy?

Reflexión rápida

Fuente original

¡Mantente al día!

¿Qué es la decodificación especulativa y qué hace `MTP`?

¿Qué es la decodificación especulativa y qué hace `MTP`?