EMO: MoE preentrenado logra modularidad emergente en IA | Keryc
EMO es un nuevo modelo mixture-of-experts (MoE) preentrenado de forma end-to-end que deja que la modularidad emerja directamente de los datos, sin imponer divisiones humanas previas. ¿El resultado? Puedes usar solo un pequeño subconjunto de expertos —12.5%— para una tarea y mantener casi el mismo desempeño que con el modelo completo.
Qué propone EMO y por qué importa
La mayoría de los grandes modelos de lenguaje se tratan como bloques monolíticos: entrenas uno grande y todo el mundo lo usa entero. Pero en la práctica muchas aplicaciones solo necesitan algunas capacidades concretas: generación de código, razonamiento matemático, conocimiento médico, y así sucesivamente. Eso hace que desplegar y adaptar modelos gigantes sea caro e ineficiente.
Las MoE parecen la solución natural: en cada capa hay muchos experts y solo se activan unos pocos por token. En teoría podrías cargar solo los expertos relevantes para una tarea. En la práctica, los MoE estándar no lo permiten: durante la generación un mismo texto activa distintos expertos por token, y la especialización suele ser en patrones superficiales como preposiciones, no en dominios semánticos.
EMO cambia eso. En vez de imponer dominios manualmente, hace que la estructura modular surja durante el preentrenamiento usando límites de documento como señal débil. Los tokens de un mismo documento quedan forzados a escoger sus expertos dentro de una pool compartida que el router elige para ese documento. Así los expertos tienden a agruparse por capacidades reales y reutilizables.
Arquitectura y cifras clave
Tamaño: 14B parámetros totales, con 128 expertos en total.
Activos por entrada: el modelo activa 8 expertos por token (1B activos en total).
Datos de preentrenamiento: 1 trillón de tokens.
Subconjuntos útiles: puedes usar solo 12.5% de los expertos (16 expertos) y perder solo ~3% de rendimiento en promedio; con 25% (32 expertos) la caída es ~1%.
Estos números son lo que permite a EMO ser a la vez modular y fuerte como modelo general cuando se usan todos los expertos.
El componente crítico es el router, la pequeña red que decide qué expertos activa cada token. La idea central es que tokens del mismo documento tienden a pertenecer a la misma “capacidad” o dominio. Durante el entrenamiento, todos los tokens del documento deben elegir expertos dentro de una pool compartida.
Concretamente:
Para cada documento se calcula el promedio de las preferencias del router sobre expertos.
Se selecciona el grupo de expertos más usados como la pool del documento.
Todos los tokens del documento solo pueden enrutar dentro de esa pool.
Esto permite que grupos de expertos recurrentes emerjan naturalmente a partir de la estructura del corpus, sin etiquetas manuales.
Balanceo de carga y tamaño de pool
Hay dos decisiones de ingeniería importantes:
Load balancing: en MoE es usual una pérdida para evitar que todos los tokens caigan en unos pocos expertos. Si aplicas ese balanceo localmente (por micro-batch) choca con la consigna de que un documento use pocos expertos. EMO resuelve esto aplicando load balancing a escala global sobre muchos documentos: los documentos comparten pools pequeñas internamente, y globalmente se fuerza a cubrir todos los expertos.
Tamaño de la pool de documento: controla cuán restrictiva es la modularidad. EMO no fija un tamaño único: durante el entrenamiento se muestrea aleatoriamente el tamaño de pool. Eso evita sobreajuste a una sola granularidad y permite flexibilidad en inferencia.
Resultados y comparaciones
En benchmarks generales EMO empata con un MoE estándar de la misma arquitectura cuando se usan todos los expertos. La ventaja real aparece al seleccionar subconjuntos de expertos:
Con 25% de expertos activos la caída es alrededor de 1%.
Con 12.5% la caída es cerca de 3%.
El MoE estándar emparejado se degrada drásticamente al reducir expertos, a veces hasta niveles cercanos al azar en las configuraciones más pequeñas.
Además, seleccionar los expertos adecuados para una tarea resulta sorprendentemente barato: un solo ejemplo con few-shot puede identificar un módulo que rinde casi igual que usando un set de validación grande. EMO también funciona bien con métodos de poda de expertos existentes como Easy-EP.
Qué hacen realmente los expertos
Para investigar, los autores clusterizaron activaciones del router en tokens de 12K documentos y vieron una diferencia clara:
EMO produce clusters semánticos: Health, Medical & Wellness, News Reporting, US Politics & Elections, Film & Music, etc.
Un MoE estándar produce clusters superficiales: preposiciones, nombres propios, verbos copulativos, artículos definidos.
En palabras sencillas: EMO agrupa por capacidad real (tema o dominio), no por rasgos léxicos. Eso explica por qué un pequeño grupo de expertos puede sostener una tarea completa.
Código y artefactos
Los autores liberan el modelo EMO entrenado, un baseline MoE emparejado y el código de entrenamiento. Eso facilita replicar experimentos y avanzar en preguntas abiertas.
Límites y preguntas abiertas
EMO es un paso importante, pero quedan retos:
Cómo seleccionar y componer subconjuntos de expertos de forma automática y robusta.
Cómo actualizar módulos sin romper el rendimiento del modelo completo.
Cómo usar la modularidad para mejorar interpretabilidad y control.
Son temas ideales para trabajo comunitario ahora que el modelo y el código están disponibles.
Al final, EMO muestra que si diseñas bien la señal de preentrenamiento y la escala del balanceo, la modularidad puede emerger sola. ¿Te imaginas desplegar modelos gigantes donde solo cargas lo que necesitas y sigues obteniendo resultados de punta? Eso ya no parece tan lejano.