Desde hace un par de meses Gemma 4 viene evolucionando rápido. Ahora Google lanza puntos de control entrenados con Quantization-Aware Training (QAT) para que puedas ejecutar modelos potentes localmente —en tu teléfono o laptop— con mucha menos memoria y sin perder la calidad que esperas.
Qué trae esta actualización
La idea central es simple: en vez de comprimir el modelo después de entrenarlo (lo que se llama Post-Training Quantization o PTQ), se simula la compresión durante el entrenamiento. Eso ayuda a mantener la precisión cuando el modelo pasa a formatos más pequeños.
QAT simula la cuantización durante el entrenamiento para minimizar la pérdida de calidad cuando el modelo se comprime.
Google ofrece ahora checkpoints QAT en el formato popular Q4_0 y además un formato nuevo especialmente pensado para móviles. Con ese formato móvil, Gemma 4 E2B text-only baja su huella de memoria a alrededor de , lo que hace posible correr conversaciones largas en dispositivos de consumo.
