Google Cloud, Intel y Hugging Face publicaron un benchmark que puede cambiar cómo piensas en servir modelos grandes abiertos. ¿La promesa? Mejor rendimiento y menor costo al usar las nuevas instancias C4
de Google Cloud con procesadores Intel Xeon 6 (Granite Rapids) para ejecutar GPT OSS, la variante MoE abierta de OpenAI. (huggingface.co)
Qué publicaron Intel y Hugging Face
El artículo documenta pruebas controladas comparando VMs C4
(Intel Xeon 6 GNR) frente a las previas C3
(4ta gen Xeon SPR), usando el modelo unsloth/gpt-oss-120b-BF16
en tareas de generación de texto con precisión bfloat16
. El objetivo fue medir rendimiento por token (latencia de decodificación) y throughput normalizado por vCPU en distintos tamaños de batch. (huggingface.co)
Te lo explico sencillo: GPT OSS es un modelo Mixture of Experts (MoE) que activa solo algunos “expertos” por token, lo que lo hace mucho más eficiente en CPU si el framework no duplica trabajo innecesario. Intel y Hugging Face añadieron optimizaciones para que cada experto procese solo los tokens que le corresponden. (huggingface.co)
Resultados clave y números
- Mejora en TCO (Costo Total de Propiedad) de hasta 1.7 veces a favor de
C4
frente aC3
. (huggingface.co) - Throughput por vCPU entre 1.4x y 1.7x según el tamaño del batch. (huggingface.co)
- En batch 64,
C4
logra 1.7x el throughput por vCPU y, con precios por vCPU casi parejos, eso se traduce en 1.7x de ventaja en TCO. (huggingface.co) - Pruebas reproducibles: entrada 1024 tokens, salida 1024 tokens, batches de 1 a 64, uso de
static KV cache
y backend de atenciónSDPA
. (huggingface.co)
¿Por qué te debe importar esto ahora?
¿Tienes un producto que sirve generación a escala o estás evaluando infra para LLMs abiertos? Esto sugiere que:
- Las CPUs modernas pueden ser una opción viable para MoE en producción, especialmente si el software evita computación redundante. (huggingface.co)
- Para startups y pymes, menos dependencia exclusiva de aceleradores GPU puede significar rutas más económicas y sencillas de despliegue. ¿Te imaginas reducir billings mensuales sin reescribir tu modelo? Aquí está la pista.
También es útil para equipos que prefieren infra en la nube pública con instancias grandes y homogéneas, porque las mejoras vienen con migrar a una generación más nueva de VMs en Google Cloud. (huggingface.co)
Cómo reproducir el benchmark rápido
Si quieres probarlo tú mismo, el blog incluye pasos claros. En resumen:
- Crea una VM
c4-standard-144
oc3-standard-176
según la comparación. (huggingface.co) - Clona el repo y usa la receta de Docker incluida:
git clone https://github.com/huggingface/transformers.git
cd transformers/
git checkout 26b65fb5168f324277b85c558ef8209bfceae1fe
cd docker/transformers-intel-cpu/
sudo docker build . -t <tu_imagen>
Dentro del contenedor instalan la versión indicada de transformers
y torch
para CPU y siguen el script de benchmark publicado. Todo esto y los comandos de benchmark están documentados en el blog. (huggingface.co)
Limitaciones y preguntas abiertas
No todo es plug and play. Ten en cuenta:
- Las mejoras se muestran para un caso específico: GPT OSS MoE con configuración determinista de atención y cache. Otros modelos o configuraciones pueden comportarse distinto. (huggingface.co)
- El argumento de TCO asume paridad de precio por vCPU entre generaciones. Si la facturación en tu cuenta o región difiere, el ahorro real puede variar. (huggingface.co)
- Es una prueba con enfoque en decodificación steady state y throughput por token. Latencia pico, cold-starts y cargas mixtas pueden necesitar pruebas adicionales. (huggingface.co)
Reflexión final
Esta entrada es un recordatorio práctico: no todas las mejoras en IA vienen solo de modelos nuevos o más GPUs. A veces la ganancia más fácil está en cambiar instancia, actualizar procesadores y ajustar el software para no desperdiciar operaciones. ¿Vale la pena probar C4
si ya estás en C3
? Si sirves modelos MoE a escala, sí, probablemente lo valga.
Más detalles y la guía paso a paso están en el blog de Hugging Face. (huggingface.co)