DiffusionGemma acelera generación de texto 4x

10 jun 2026Keryc Díaz4 minutos

Hoy Google presenta DiffusionGemma, un modelo experimental que replantea cómo se genera texto para ganar mucha velocidad sin depender del viejo proceso de "teclear" palabra por palabra.

Qué es DiffusionGemma y por qué importa

DiffusionGemma es un modelo abierto bajo licencia Apache 2.0: un Mixture of Experts (MoE) de 26B que activa solo 3.8B parámetros durante la inferencia. En lugar de producir tokens de forma secuencial, genera bloques enteros de texto al mismo tiempo, lo que le permite alcanzar hasta 4x más rapidez en GPUs dedicadas.

¿Y eso qué significa para ti como desarrollador o creador? Menos latencia cuando trabajas localmente, respuestas más rápidas en editores interactivos y mejores experiencias en flujos donde cada milisegundo cuenta.

Ventajas prácticas (y sus límites)

Velocidad: Hasta 1000+ tokens por segundo en una NVIDIA H100 y 700+ tokens por segundo en una GeForce RTX 5090. Eso convierte tareas que antes eran lentas en interacciones casi instantáneas.
Huella de hardware accesible: Aunque es un modelo de 26B, al ser MoE solo usa 3.8B en cada inferencia, y puede caber en 18GB de VRAM cuando está cuantizado. Ideal para GPUs de gama alta de consumidor.
Atención bidireccional: Genera 256 tokens en paralelo en cada paso, lo que permite que cada token pueda atender a todos los demás. ¿Para qué sirve eso? Para tareas no lineales como edición en línea, rellenado de código, secuencias de aminoácidos o incluso resolver sudokus.
Autocorrección inteligente: DiffusionGemma refina iterativamente el bloque de texto, corrigiéndose sobre la marcha en vez de depender solo del orden izquierdo-derecho.

Importante: DiffusionGemma prioriza velocidad y generación paralela. Eso implica que, en calidad pura, no iguala a los Gemma 4 autoregresivos. Si tu producto exige la máxima calidad, sigue siendo mejor usar Gemma 4.

¿Por qué usar difusión para texto?

Si conoces los generadores de imágenes basados en difusión, la idea es similar: arrancar desde ruido y refinar hasta obtener un resultado coherente. En texto funciona así:

El modelo inicia con un "lienzo" de tokens aleatorios.
Hace pasadas iterativas, fijando tokens correctos y usando ese contexto para mejorar el resto.
El bloque converge hacia un texto legible y pulido.

La ventaja clave es que el modelo procesa todo el párrafo como un conjunto, habilitando patrones que los modelos secuenciales no manejan tan bien, por ejemplo cerrar correctamente bloques complejos de Markdown o rellenar y ejecutar fragmentos de código casi en tiempo real.

Dónde brilla y dónde no

DiffusionGemma es especialmente útil cuando ejecutas modelos localmente, con baja concurrencia y buscas latencia mínima: editores interactivos, experimentos rápidos, prototipos que necesitan respuestas inmediatas. En servidores cloud con miles de solicitudes simultáneas, la generación autoregresiva sigue siendo más eficiente en costo y rendimiento.

Cómo empezar y herramientas compatibles

Descarga los pesos en Hugging Face: el modelo está disponible públicamente bajo Apache 2.0.
Integraciones y frameworks: funciona con MLX, vLLM (integración respaldada por Red Hat) y Hugging Face Transformers. También se ofrece un tutorial de fine-tuning con Hackable Diffusion (JAX) y hay trabajos con Unsloth y NVIDIA NeMo. Soporte para llama.cpp llegará pronto.
Optimizaciones de hardware: Google trabajó con NVIDIA para soportar cuantización y acelerar inferencia en GPUs de consumidor (RTX 5090 y 4090) y en sistemas empresariales como Hopper y Blackwell usando NVFP4.

Casos curiosos y prácticos

Un equipo afinó DiffusionGemma para resolver Sudoku, una tarea que molesta a modelos autoregresivos porque cada número depende de los futuros. La atención bidireccional lo hace más natural.
Generación de estructuras no lineales: editar un párrafo en el medio sin reescribir todo, rellenado de código con contexto completo o trabajar con secuencias biológicas son escenarios donde la paralelización ofrece ventaja real.

Reflexión final

DiffusionGemma no pretende reemplazar a Gemma 4 en calidad, sino ampliar el repertorio: si buscas interacción rápida, edición en línea y experimentación local con GPUs de consumidor, esta propuesta abre puertas interesantes. ¿Te interesa reducir latencias en tu app o probar nuevas formas de generar texto? Este modelo es una invitación a experimentar.

Fuente original

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.

Qué es DiffusionGemma y por qué importa

Ventajas prácticas (y sus límites)

Velocidad: Hasta 1000+ tokens por segundo en una NVIDIA H100 y 700+ tokens por segundo en una GeForce RTX 5090. Eso convierte tareas que antes eran lentas en interacciones casi instantáneas.

Huella de hardware accesible: Aunque es un modelo de 26B, al ser MoE solo usa 3.8B en cada inferencia, y puede caber en 18GB de VRAM cuando está cuantizado. Ideal para GPUs de gama alta de consumidor.

Atención bidireccional: Genera 256 tokens en paralelo en cada paso, lo que permite que cada token pueda atender a todos los demás. ¿Para qué sirve eso? Para tareas no lineales como edición en línea, rellenado de código, secuencias de aminoácidos o incluso resolver sudokus.

Autocorrección inteligente: DiffusionGemma refina iterativamente el bloque de texto, corrigiéndose sobre la marcha en vez de depender solo del orden izquierdo-derecho.

Importante: DiffusionGemma prioriza velocidad y generación paralela. Eso implica que, en calidad pura, no iguala a los Gemma 4 autoregresivos. Si tu producto exige la máxima calidad, sigue siendo mejor usar Gemma 4.

¿Por qué usar difusión para texto?

Si conoces los generadores de imágenes basados en difusión, la idea es similar: arrancar desde ruido y refinar hasta obtener un resultado coherente. En texto funciona así:

El modelo inicia con un "lienzo" de tokens aleatorios.

Hace pasadas iterativas, fijando tokens correctos y usando ese contexto para mejorar el resto.

El bloque converge hacia un texto legible y pulido.

Dónde brilla y dónde no

Cómo empezar y herramientas compatibles

Descarga los pesos en Hugging Face: el modelo está disponible públicamente bajo Apache 2.0.

Integraciones y frameworks: funciona con MLX, vLLM (integración respaldada por Red Hat) y Hugging Face Transformers. También se ofrece un tutorial de fine-tuning con Hackable Diffusion (JAX) y hay trabajos con Unsloth y NVIDIA NeMo. Soporte para llama.cpp llegará pronto.

Optimizaciones de hardware: Google trabajó con NVIDIA para soportar cuantización y acelerar inferencia en GPUs de consumidor (RTX 5090 y 4090) y en sistemas empresariales como Hopper y Blackwell usando NVFP4.

Casos curiosos y prácticos

Un equipo afinó DiffusionGemma para resolver Sudoku, una tarea que molesta a modelos autoregresivos porque cada número depende de los futuros. La atención bidireccional lo hace más natural.

Generación de estructuras no lineales: editar un párrafo en el medio sin reescribir todo, rellenado de código con contexto completo o trabajar con secuencias biológicas son escenarios donde la paralelización ofrece ventaja real.

Reflexión final