vLLM V1 corrige logprobs y alcanza paridad con V0

vLLM V1 iguala el comportamiento de vLLM V0 en un experimento de RL luego de arreglar cuatro problemas clave: processed_logprobs, defaults de runtime específicos de V1, la ruta de actualizaciones inflight de pesos, y el fp32 lm_head para la proyección final. Antes de tocar el objetivo de RL, el equipo corrigió el backend y luego evaluó cambios a nivel de objetivo.

Qué pasó en pocas palabras

¿Por qué importó tanto este cambio? Porque en sistemas de RL online, los logprobs que vienen del backend son parte directa de la función objetivo. Si esos logprobs no significan lo mismo para el trainer y el rollout backend, la optimización queda sesgada.

En el experimento citado, la referencia usó vLLM 0.8.5 y las pruebas de migración usaron vLLM 0.18.1. La primera corrida con V1 mostró desviaciones claras en métricas como clip rate, kl_new_old, entropy, y reward. El equipo separó las causas en capas y fue resolviendo de abajo hacia arriba: primero semántica, luego path de inferencia, y solo al final la parte de objetivo.

Qué pasó en pocas palabras

Diagnóstico por capas

Síntomas observables

Las cuatro correcciones que restauraron paridad

Qué no funcionó y por qué es importante el orden

Qué sigue y buenas prácticas para RL online

Reflexión final

Fuente original

¡Mantente al día!

vLLM V1 corrige logprobs y alcanza paridad con V0