Gemma 4 QAT: modelos optimizados para móvil y laptop

5 jun 2026Keryc Díaz3 minutos

Desde hace un par de meses Gemma 4 viene evolucionando rápido. Ahora Google lanza puntos de control entrenados con Quantization-Aware Training (QAT) para que puedas ejecutar modelos potentes localmente —en tu teléfono o laptop— con mucha menos memoria y sin perder la calidad que esperas.

Qué trae esta actualización

La idea central es simple: en vez de comprimir el modelo después de entrenarlo (lo que se llama Post-Training Quantization o PTQ), se simula la compresión durante el entrenamiento. Eso ayuda a mantener la precisión cuando el modelo pasa a formatos más pequeños.

QAT simula la cuantización durante el entrenamiento para minimizar la pérdida de calidad cuando el modelo se comprime.

Google ofrece ahora checkpoints QAT en el formato popular Q4_0 y además un formato nuevo especialmente pensado para móviles. Con ese formato móvil, Gemma 4 E2B text-only baja su huella de memoria a alrededor de 1 GB, lo que hace posible correr conversaciones largas en dispositivos de consumo.

¿Qué optimizaron para móviles? (en sencillo)

Preajuste de activaciones: en lugar de calcular en tiempo real cómo escalar datos, se precalculan durante el entrenamiento para ahorrar cómputo en el chip del teléfono.
Cuantización por canal: la estructura comprimida se adapta al diseño de los aceleradores móviles para evitar soluciones lentas.
Cuantización focalizada a 2 bits: se comprimen fuertemente las partes que generan tokens, manteniendo las capas de razonamiento a mayor precisión.
Embeddings y KV cache optimizados: se comprime el vocabulario y la memoria a corto plazo, reduciendo la memoria activa y permitiendo conversaciones largas.

Además, si no usas audio o visión, puedes desplegar solo la modalidad de texto para reducir aún más la huella.

¿Por qué te interesa esto hoy?

Privacidad: ejecutar localmente significa menos datos en la nube.
Ahorro: menos uso de GPU en servidor, menos costos si trabajas con inferencia masiva.
Accesibilidad: poder probar modelos grandes en laptops comunes o móviles modernos.
Flexibilidad: hay checkpoints listos para herramientas populares, así no necesitas reinventar la rueda.

Cómo empezar (herramientas y flujos de trabajo)

Descargar pesos: los modelos Q4_0 y el formato móvil están disponibles en Hugging Face. Hay formatos GGUF listos para llama.cpp y tensores comprimidos para vLLM.
Ejecutar localmente: interfaces como llama.cpp, Ollama o LM Studio facilitan probarlos en desktop.
Despliegue en dispositivo: usa LiteRT-LM para edge o corre en la web con Transformers.js.
Optimización y servidor: vLLM para servir modelos grandes, MLX para Apple Silicon, y las MTP QAT checkpoints conservan la aceleración de Multi-Token Prediction.
Fine-tuning: puedes ajustar pesos con Hugging Face Transformers y Unsloth si necesitas adaptar el modelo a tareas específicas.

Pequeño consejo práctico: si solo necesitas chat de texto en un móvil, prueba primero Gemma 4 E2B text-only sin per-layer embeddings; suele requerir menos de 1 GB.

Limitaciones y puntos a considerar

PTQ sigue siendo efectivo en muchas tareas; QAT mejora la calidad pero implica entrenamiento adicional.
El formato móvil sacrifica precisión en ciertas partes para ahorrar espacio; para tareas críticas de alta precisión quizá prefieras mantener modelos en mayor precisión.
Si necesitas capacidades multimodales (audio o visión), recuerda que esos encoders aumentan la huella, así que ajusta según tu uso.

La novedad aquí no es solo que los modelos sean más pequeños: es que ahora están pensados para funcionar bien en hardware real sin que tengas que ser un experto en optimización. Eso abre la puerta a prototipos más rápidos, productos offline y experiencias más privadas.

Fuente original

https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.

Qué trae esta actualización

QAT simula la cuantización durante el entrenamiento para minimizar la pérdida de calidad cuando el modelo se comprime.

¿Qué optimizaron para móviles? (en sencillo)

Preajuste de activaciones: en lugar de calcular en tiempo real cómo escalar datos, se precalculan durante el entrenamiento para ahorrar cómputo en el chip del teléfono.

Cuantización por canal: la estructura comprimida se adapta al diseño de los aceleradores móviles para evitar soluciones lentas.

Cuantización focalizada a 2 bits: se comprimen fuertemente las partes que generan tokens, manteniendo las capas de razonamiento a mayor precisión.

Embeddings y KV cache optimizados: se comprime el vocabulario y la memoria a corto plazo, reduciendo la memoria activa y permitiendo conversaciones largas.

Además, si no usas audio o visión, puedes desplegar solo la modalidad de texto para reducir aún más la huella.

¿Por qué te interesa esto hoy?

Privacidad: ejecutar localmente significa menos datos en la nube.

Ahorro: menos uso de GPU en servidor, menos costos si trabajas con inferencia masiva.

Accesibilidad: poder probar modelos grandes en laptops comunes o móviles modernos.

Flexibilidad: hay checkpoints listos para herramientas populares, así no necesitas reinventar la rueda.

Cómo empezar (herramientas y flujos de trabajo)

Descargar pesos: los modelos Q4_0 y el formato móvil están disponibles en Hugging Face. Hay formatos GGUF listos para llama.cpp y tensores comprimidos para vLLM.

Ejecutar localmente: interfaces como llama.cpp, Ollama o LM Studio facilitan probarlos en desktop.

Despliegue en dispositivo: usa LiteRT-LM para edge o corre en la web con Transformers.js.

Optimización y servidor: vLLM para servir modelos grandes, MLX para Apple Silicon, y las MTP QAT checkpoints conservan la aceleración de Multi-Token Prediction.

Fine-tuning: puedes ajustar pesos con Hugging Face Transformers y Unsloth si necesitas adaptar el modelo a tareas específicas.

Pequeño consejo práctico: si solo necesitas chat de texto en un móvil, prueba primero Gemma 4 E2B text-only sin per-layer embeddings; suele requerir menos de 1 GB.

Limitaciones y puntos a considerar

PTQ sigue siendo efectivo en muchas tareas; QAT mejora la calidad pero implica entrenamiento adicional.

El formato móvil sacrifica precisión en ciertas partes para ahorrar espacio; para tareas críticas de alta precisión quizá prefieras mantener modelos en mayor precisión.

Si necesitas capacidades multimodales (audio o visión), recuerda que esos encoders aumentan la huella, así que ajusta según tu uso.