Async RL: lecciones de 16 librerías open source

Si alguna vez te has preguntado por qué tus GPUs pasan gran parte del tiempo ociosas cuando entrenas modelos que razonan, esta nota es para ti. Aquí tienes la versión técnica y digerible de un estudio amplio: 16 librerías open source que ya resolvieron (en distintas formas) el problema del entrenamiento asíncrono en RL para modelos de razonamiento largo.

El problema en pocas palabras

En un bucle de RL tradicional, la generación autoregresiva (inferencia) se come la mayor parte del tiempo de pared. Un solo batch de rollouts de 32K tokens en un modelo de 32B puede tardar horas, mientras las GPUs de entrenamiento están paradas.

¿La consecuencia? Baja utilización de GPU, latencias enormes y cuellos de botella por el llamado problema del straggler: unas pocas muestras lentas bloquean lotes enteros.

Ejemplo numérico rápido (benchmarks vLLM, H100 80GB, bf16):

7B ≈ 6,300 tokens/s agregado.
32B ≈ 1,200 tokens/s agregado.

Output por rollout	Tokens totales (512)	7B (6.3K tok/s)	32B (1.2K tok/s)
2K	~1M	~3 min	~14 min
8K	~4M	~11 min	~56 min
32K	~16M	~45 min	~3.7 hours

El problema en pocas palabras

La solución que se impone: disociar y poner flujo

Las siete dimensiones que determinan el diseño

Hallazgos clave del relevamiento (resumido)

Modelos de interrupción y transferencia de pesos

Datos concretos para dimensionar (tabla resumida)

Casos complejos y problemas emergentes

Relevancia de LoRA y LoRA para MoE

Diseño propuesto para el async trainer de TRL (concreto y técnico)

Recomendaciones prácticas para equipos

Reflexión final

Fuente original

¡Mantente al día!

Async RL: lecciones de 16 librerías open source