Gemma 4: IA multimodal abierta que corre en dispositivo | Keryc
Gemma 4 llega como un paquete completo: modelo abierto bajo Apache 2, multimodal (texto, imagen, audio, video), tamaños pensados para correr desde tu laptop hasta un servidor, y con resultados que en muchos casos funcionan de forma excelente sin necesitar fine-tuning.
Qué hay de nuevo con Gemma 4
Gemma 4 combina ideas probadas y mejoras puntuales para ofrecer una familia de modelos práctica y eficiente:
Licencia Apache 2 y checkpoints abiertos para uso y despliegue libre.
Multimodal: texto + imagen + video; las variantes pequeñas también procesan audio.
Diseñada para correr en muchas infraestructuras: Transformers, llama.cpp, MLX, WebGPU, Rust, ONNX y más.
Cuatro tamaños base, todos con checkpoint base e instrucción afinada: E2B (2.3B efectiva), E4B (4.5B efectiva), 31B denso y 26B A4B (MoE 4B activas).
Contexto largo: 128k para E2B/E4B y 256k para los grandes.
¿La conclusión rápida? Modelos que puedes probar hoy mismo, incluso en dispositivo, y con un diseño pensado para ser eficiente al cuantizar.
Arquitectura y detalles técnicos
Gemma 4 junta componentes conocidos pero afinados para multimodalidad y contexto largo. Aquí lo esencial, explicado sin rodeos:
Atención mixta: capas alternadas de ventana local (sliding-window) y atención global de contexto completo. Ventana local típica: 512 tokens en modelos pequeños, 1024 en modelos grandes.
Dual RoPE: RoPE estándar en las capas de ventana y RoPE proporcional en las capas globales para extender el contexto de manera estable.
Per-Layer Embeddings (PLE): una segunda tabla de embeddings que crea un vector reducido por token para cada capa. Esto permite que cada capa reciba información token-específica cuando la necesite, en vez de forzar a la embedding inicial a contenerlo todo. Es una optimización de especialización por capa con costo de parámetros bajo.
Shared KV Cache: las últimas N capas reutilizan las llaves y valores de una capa anterior del mismo tipo, ahorrando memoria y cómputo en inferencia con contexto largo.
Vision encoder: posiciones 2D aprendidas y RoPE multidimensional, preserva relaciones de aspecto y permite varios presupuestos de tokens visuales (70, 140, 280, 560, 1120) para ajustar latencia y calidad.
Audio encoder: conformer estilo USM, con la misma base que Gemma-3n para compatibilidad.
Estas piezas hacen a Gemma 4 ideal para cuantización y para ejecutar con contextos muy largos sin romper la experiencia.
Rendimiento y métricas
LMArena (texto): 31B denso ≈ 1452; 26B MoE (4B activas) ≈ 1441. Eso sitúa a los modelos en una liga similar a GLM-5 o Kimi K2.5, pero con un número de parámetros efectivo mucho menor.
En pruebas informales, la operación multimodal (imagen/audio + texto) se acerca a la calidad del texto puro para tareas prácticas como captioning, OCR y detección.
Importante: los números vienen del reporte de lanzamiento y son estimados para contexto de texto; la interpretación siempre necesita matices según la tarea.
Capacidades multimodales y ejemplos prácticos
Gemma 4 funciona bien out-of-the-box para tareas reales:
OCR y extracción estructurada (responde en JSON a bounding boxes sin instrucciones rígidas).
Detección y apuntado en interfaces GUI (genera coordenadas relativas a la imagen de forma nativa).
Captioning y descripción de escenas complejas.
Transcripción y descripción de audio hablada (no entrenado para interpretar música o efectos no verbales como parte del discurso).
Funciones de llamada / tool-calling, razonamiento, y generación de código.
Ejemplo de salida JSON para detección de un elemento UI:
Para casos más avanzados (video con audio, tool-calling, o fine-tuning) Hugging Face publica ejemplos usando AutoModelForMultimodalLM, AutoProcessor y la plantilla de chat integrada.
Despliegue: dónde y cómo ejecutarlo
Gemma 4 tiene soporte day-0 en muchas infraestructuras:
Transformers (con bitsandbytes, PEFT, TRL).
llama.cpp / llama-server y formatos GGUF para apps locales y agentes como Pi, openclaw o hermes.
transformers.js y WebGPU para ejecución en navegador.
ONNX y checkpoints para backends de hardware.
mistral.rs para un motor Rust con funcionalidades agenticas.
MLX para pipelines multimodales optimizados.
Trucos prácticos:
Para reducir memoria activa en Apple Silicon usa TurboQuant (ejemplo: --kv-bits 3.5 --kv-quant-scheme turboquant).
Las variantes E2B/E4B son ideales para prototipos en laptop o Raspberry; 26B A4B o 31B para servidores o GPU grandes.
Instalación rápida de llama.cpp server (ejemplo):
# MacOS
brew install llama.cpp
# Windows
winget install llama.cpp
# iniciar servidor con un GGUF
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF:Q4_K_M
Fine-tuning, entrenamiento y demos
Gemma 4 está pensada para ser extendida:
TRL ahora soporta respuestas multimodales de herramientas durante el entrenamiento, lo que abre puertas a entrenar agentes que reciben imágenes del entorno en tiempo real.
Ejemplo práctico: entrenamiento con CARLA donde el modelo aprende a conducir viendo la cámara y actuando; después de entrenamiento el agente evita peatones y cambia de carril de forma consistente.
Integración con Vertex AI: Hugging Face documenta cómo construir contenedores y lanzar trabajos de entrenamiento con GPUs H100.
Snippet abreviado para lanzar un job en Vertex AI (esqueleto):
Si prefieres UI para experimentar, Unsloth Studio permite cargar modelos desde el hub y probar fine-tuning local o en Colab.
Reflexión práctica: ¿qué puedes hacer hoy?
Si eres desarrollador o investigador, Gemma 4 te permite iterar rápido: pruebas locales, cuantización y despliegue de agentes multimodales sin depender de APIs propietarias. Si eres creador de productos, puedes evaluar variantes pequeñas para funciones en apps que requieren visión y habla. Y si solo tienes curiosidad, puedes probar los demos en navegador o levantar el servidor local y ver qué tan bien entiende imágenes y audio en tus propios casos.
¿Limitaciones? Sí. No conocemos la mezcla de datos ni la receta completa de entrenamiento, y la interpretación de audio musical o sonidos no verbales no está garantizada. Siempre valida con tu conjunto de datos y prueba la robustez en producción.
Gemma 4 es una demostración fuerte de que la IA multimodal potente puede ser abierta y utilizable en muchos entornos. ¿Te animas a probarla en tu laptop o en un proyecto? Comparte los resultados con la comunidad.