TRL v1.0: biblioteca de post-training que resiste el cambio

TRL llega a la versión 1.0 en un momento curioso: el campo del post-training no está quieto, y sin embargo muchas personas y proyectos dependen de una librería estable. ¿Cómo construyes software que debe sobrevivir a un terreno que se redefine cada pocos meses? La respuesta de TRL es práctica y, a la vez, algo contraria a lo que suena lógico: no encapsularlo todo hoy, sino diseñar alrededor de lo que podría cambiar mañana.

Por qué v1.0 no es una declaración de paz con el futuro

La historia de post-training no es una línea recta. Primero PPO hizo parecer que había una arquitectura canónica: política, modelo de referencia, reward model aprendido, rollouts y un bucle de RL tradicional. Luego llegaron DPO y variantes (ORPO, KTO) y mostraron que muchas piezas podían desaparecer: optimizar preferencias sin reward model entrenado, sin value model y sin RL online.

Después volvieron métodos que usan verificadores deterministas en lugar de reward models aprendidos, como GRPO. De nuevo la forma del stack cambia: sampling y rollouts vuelven a importar, pero no en la forma que PPO había estandarizado.

Por qué v1.0 no es una declaración de paz con el futuro

Modelo de estabilidad: núcleo estable y capa experimental

Principios de diseño: menos abstracción, más explicitud local

Lo que la librería cubre hoy (y por qué importa)

Evolución técnica y próximas direcciones

Filosofía práctica: economía de mantenimiento y comunidad

Conclusión práctica

Fuente original

¡Mantente al día!

TRL v1.0: biblioteca de post-training que resiste el cambio