Gemma 4: modelos abiertos potentes y móviles | Keryc
Google presenta Gemma 4, su familia de modelos abiertos más capaz hasta la fecha. Pensada para razonamiento avanzado y flujos de trabajo agentivos, Gemma 4 promete mucha inteligencia por parámetro y llega con licencia Apache 2.0 para que desarrolles sin barreras.
Qué es Gemma 4
Gemma 4 es una familia de modelos abiertos construida sobre la misma investigación que impulsó a Gemini 3. La apuesta central es ofrecer inteligencia de frontera que puedas ejecutar en tu propio hardware: desde teléfonos Android hasta laptops con GPUs y estaciones de trabajo. ¿Por qué importa eso? Porque ahora puedes lograr capacidades avanzadas sin depender exclusivamente de APIs cerradas.
Google reporta que la familia Gemma ya superó 400 millones de descargas y cuenta con más de 100.000 variantes creadas por la comunidad. Gemma 4 llega en cuatro tamaños optimizados para diferentes usos y recursos.
Capacidades principales
mejora en tareas de lógica, planificación multi paso y benchmarks de matemáticas e instrucciones.
Razonamiento avanzado:
Flujos agentivos: soporte nativo para function-calling, salidas JSON estructuradas e instrucciones de sistema, pensados para construir agentes autónomos que interactúen con APIs y herramientas.
Generación de código offline: convierte tu máquina local en un asistente de código sin depender de la nube.
Visión y audio nativos: procesamiento de imágenes y video, OCR y comprensión de gráficos; los modelos E2B y E4B añaden entrada de audio para reconocimiento y entendimiento del habla.
Contextos largos: ventanas de contexto de hasta 128K en modelos edge y hasta 256K en los modelos mayores, útiles para pasar repositorios o documentos largos en una sola petición.
Cobertura global: entrenamiento en más de 140 idiomas para aplicaciones inclusivas.
Gemma 4 combina rendimiento de punta con la posibilidad de ejecutarla localmente, ideal para prototipos offline y despliegues con requisitos de privacidad.
Tamaños y dónde correrlos
Gemma 4 llega en cuatro configuraciones pensadas para casos concretos:
E2B (Effective 2B) y E4B (Effective 4B): diseñados para dispositivos móviles e IoT. Activan una huella efectiva baja durante inferencia para ahorrar RAM y batería. Se integran con hardware como teléfonos Pixel, Raspberry Pi y módulos Jetson, y ofrecen multimodalidad con latencia mínima.
26B Mixture of Experts (MoE): pensado para baja latencia y alta eficiencia; activa solo 3.8B de parámetros en cada inferencia para tokens por segundo rápidos.
31B Dense: maximiza calidad y es una base sólida para fine-tuning. Google indica que el 31B está rankeado #3 entre modelos abiertos en la tabla Arena AI, y el 26B ocupa el #6, compitiendo con modelos mucho más grandes.
Para desarrolladores, las versiones unquantized en bfloat16 caben en una sola GPU NVIDIA H100 de 80GB; las versiones cuantizadas permiten correr en GPUs de consumo.
Licencia, seguridad y soberanía
Gemma 4 se lanza bajo licencia Apache 2.0. ¿Qué significa eso para ti? Libertad para usar, modificar y desplegar comercialmente, lo que facilita la soberanía digital: control sobre datos, infraestructura y el modelo.
Google también dice que estos pesos pasan por los mismos protocolos de seguridad que sus modelos propietarios, apuntando a usos empresariales y gubernamentales con garantías de confiabilidad.
Ecosistema y casos de uso reales
Gemma 4 ya se está usando en ejemplos concretos: INSAIT creó un modelo en búlgaro (BgGPT) y en Yale la herramienta Cell2Sentence-Scale ayudó a explorar rutas para terapias contra el cáncer. Eso muestra tanto investigación como aplicaciones prácticas.
Herramientas y plataformas con soporte desde el día uno incluyen Hugging Face, llama.cpp, vLLM, Ollama, y muchas librerías y runtimes populares para que puedas integrar Gemma 4 donde ya trabajas. Los pesos están disponibles en Hugging Face, Kaggle y Ollama y puedes probarlos en Google AI Studio o en la AI Edge Gallery.
Cómo empezar hoy
Si quieres experimentar rápido: prueba Gemma 4 en Google AI Studio (31B y 26B MoE) o en la AI Edge Gallery (E4B y E2B).
Si prefieres local: descarga los pesos desde Hugging Face o Ollama y corre las versiones cuantizadas en tu GPU de consumo.
Si piensas en móvil: E2B y E4B permiten prototipado offline y funcionan con herramientas Android como ML Kit GenAI Prompt API.
Si vas a producción: puedes escalar en Google Cloud (Vertex AI, TPU, GKE) o mantener despliegues on-premises para soberanía.
Reflexión final
Gemma 4 es otra señal de que la IA abierta no está en retirada, sino que se hace más capaz y más práctica. Para ti como desarrollador, investigador o creador de productos, esto significa más opciones: modelos potentes que puedes ejecutar localmente, adaptar a tu idioma y regularlos según tus políticas.
¿Listo para probarlo en tu laptop, teléfono o servidor? La barrera de entrada baja, y la flexibilidad que ofrece la licencia Apache 2.0 facilita experimentar sin ataduras.