Asincronía en continuous batching optimiza inferencia LLM

La CPU y la GPU a menudo se quedan esperando la una a la otra, y eso se come tiempo y dinero. ¿Te imaginas pagar 140 USD al día por una H200 y ver que una cuarta parte del tiempo la GPU está idle esperando a la CPU? Aquí te explico cómo separar las cargas de CPU y GPU para que ambas trabajen en paralelo y así exprimir la inferencia de modelos grandes.

Por qué esto importa

Si ejecutas inference a escala —por ejemplo en endpoints con H200— cada minuto cuenta. Continuous batching ya mejora la utilización porque reduce padding y agrupa requests de forma eficiente. Pero el siguiente cuello de botella es la sincronía: CPU y GPU se turnan y en loops con cientos de pasos por segundo esos huecos suman.

En un experimento con un modelo de 8B, batch 32 y 8K tokens, el ciclo sincrónico tardó 300.6 s y la GPU estuvo idle un 24% del tiempo. En la versión asincrónica la GPU estuvo activa 99.4% del tiempo y el total bajó a 234.5 s. ¿Resultado? Un 22% de mejora real en tiempo de generación, sin tocar modelos ni kernels.

Por qué esto importa

Idea central: desentrelazar CPU y GPU

Streams y events: la base técnica

Pipeline H2D -> compute -> D2H con eventos

Evitar corrupción de datos: doble slot y pool de memoria

Carry-over: pasar tokens de N a N+1

El loop asincrónico completo

Resultados prácticos y números

Implementación y recomendaciones para producción

Conclusión reflexiva

Fuente original

¡Mantente al día!

Asincronía en continuous batching optimiza inferencia LLM