BAR: técnica modular para post-entrenamiento de IA con MoE

Después del preentrenamiento, los modelos de lenguaje pasan por varias etapas de mid- y post-training para volverse útiles: seguir instrucciones, razonar, usar herramientas, y mantener seguridad. ¿Qué pasa cuando quieres añadir o mejorar una habilidad después de todo ese proceso? Normalmente o vuelves a entrenar desde cero, o arriesgas que el modelo olvide cosas. BAR propone otra vía: entrenar expertos por separado y combinarlos con una arquitectura MoE para mantener flexibilidad y evitar degradaciones.

Qué es BAR y por qué importa

BAR significa Branch-Adapt-Route. La idea clave es modularizar el post-entrenamiento: cada dominio (por ejemplo math, code, tool use, safety) se entrena como un experto independiente que pasa por su propio pipeline completo. Luego se combinan en un solo modelo usando un mixture-of-experts y un router que decide qué experto activar en cada entrada.

¿Por qué es relevante? Porque en desarrollo real de modelos hay equipos distintos, calendarios distintos y datos que aparecen de forma asíncrona. Volver a ejecutar todo el pipeline cada vez que actualizas código o datos es caro e impráctico. BAR te da una alternativa que escala linealmente con las actualizaciones de dominio.

Qué es BAR y por qué importa

Cómo funciona BAR

Etapa 1 - Entrenamiento independiente de expertos

Etapa 2 - Fusión de expertos

Etapa 3 - Entrenamiento del router

Resultados y comparaciones

Actualizaciones modulares: coste y beneficios

Lecciones prácticas y recomendaciones

Mirando hacia adelante

Fuente original

¡Mantente al día!

BAR: técnica modular para post-entrenamiento de IA con MoE