Google Cloud C4 reduce TCO 70% para GPT OSS

15 oct 20253 minutos

Google Cloud, Intel y Hugging Face publicaron un benchmark que puede cambiar cómo piensas en servir modelos grandes abiertos. ¿La promesa? Mejor rendimiento y menor costo al usar las nuevas instancias C4 de Google Cloud con procesadores Intel Xeon 6 (Granite Rapids) para ejecutar GPT OSS, la variante MoE abierta de OpenAI. (huggingface.co)

Qué publicaron Intel y Hugging Face

El artículo documenta pruebas controladas comparando VMs C4 (Intel Xeon 6 GNR) frente a las previas C3 (4ta gen Xeon SPR), usando el modelo unsloth/gpt-oss-120b-BF16 en tareas de generación de texto con precisión bfloat16. El objetivo fue medir rendimiento por token (latencia de decodificación) y throughput normalizado por vCPU en distintos tamaños de batch. (huggingface.co)

Te lo explico sencillo: GPT OSS es un modelo Mixture of Experts (MoE) que activa solo algunos “expertos” por token, lo que lo hace mucho más eficiente en CPU si el framework no duplica trabajo innecesario. Intel y Hugging Face añadieron optimizaciones para que cada experto procese solo los tokens que le corresponden. (huggingface.co)

Resultados clave y números

Mejora en TCO (Costo Total de Propiedad) de hasta 1.7 veces a favor de C4 frente a C3. (huggingface.co)
Throughput por vCPU entre 1.4x y 1.7x según el tamaño del batch. (huggingface.co)
En batch 64, C4 logra 1.7x el throughput por vCPU y, con precios por vCPU casi parejos, eso se traduce en 1.7x de ventaja en TCO. (huggingface.co)
Pruebas reproducibles: entrada 1024 tokens, salida 1024 tokens, batches de 1 a 64, uso de static KV cache y backend de atención SDPA. (huggingface.co)

¿Por qué te debe importar esto ahora?

¿Tienes un producto que sirve generación a escala o estás evaluando infra para LLMs abiertos? Esto sugiere que:

Las CPUs modernas pueden ser una opción viable para MoE en producción, especialmente si el software evita computación redundante. (huggingface.co)
Para startups y pymes, menos dependencia exclusiva de aceleradores GPU puede significar rutas más económicas y sencillas de despliegue. ¿Te imaginas reducir billings mensuales sin reescribir tu modelo? Aquí está la pista.

También es útil para equipos que prefieren infra en la nube pública con instancias grandes y homogéneas, porque las mejoras vienen con migrar a una generación más nueva de VMs en Google Cloud. (huggingface.co)

Cómo reproducir el benchmark rápido

Si quieres probarlo tú mismo, el blog incluye pasos claros. En resumen:

Crea una VM c4-standard-144 o c3-standard-176 según la comparación. (huggingface.co)
Clona el repo y usa la receta de Docker incluida:

git clone https://github.com/huggingface/transformers.git

cd transformers/

git checkout 26b65fb5168f324277b85c558ef8209bfceae1fe

cd docker/transformers-intel-cpu/

sudo docker build . -t <tu_imagen>

Dentro del contenedor instalan la versión indicada de transformers y torch para CPU y siguen el script de benchmark publicado. Todo esto y los comandos de benchmark están documentados en el blog. (huggingface.co)

Limitaciones y preguntas abiertas

No todo es plug and play. Ten en cuenta:

Las mejoras se muestran para un caso específico: GPT OSS MoE con configuración determinista de atención y cache. Otros modelos o configuraciones pueden comportarse distinto. (huggingface.co)
El argumento de TCO asume paridad de precio por vCPU entre generaciones. Si la facturación en tu cuenta o región difiere, el ahorro real puede variar. (huggingface.co)
Es una prueba con enfoque en decodificación steady state y throughput por token. Latencia pico, cold-starts y cargas mixtas pueden necesitar pruebas adicionales. (huggingface.co)

Reflexión final

Esta entrada es un recordatorio práctico: no todas las mejoras en IA vienen solo de modelos nuevos o más GPUs. A veces la ganancia más fácil está en cambiar instancia, actualizar procesadores y ajustar el software para no desperdiciar operaciones. ¿Vale la pena probar C4 si ya estás en C3? Si sirves modelos MoE a escala, sí, probablemente lo valga.

Más detalles y la guía paso a paso están en el blog de Hugging Face. (huggingface.co)

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.