Cuando piensas en modelos de lenguaje potentes, ¿imaginas un único monstruo entrenado con todo el universo de datos? FlexOlmo y ahora FlexMoRE te muestran otra ruta: modelos construidos como piezas que se ensamblan, permitiendo que instituciones con datos sensibles contribuyan sin compartir esos datos.
Qué aporta FlexMoRE
FlexMoRE nace dentro del proyecto Danish Foundation Models (DFM) como una adaptación práctica de la arquitectura FlexOlmo. La idea inicial de FlexOlmo es clara y técnica: en vez de pasar cada token por un modelo monolítico, se usa un router que envía ese token solo a un subconjunto de experts especializados. En tiempo de inferencia, solo corren los expertos seleccionados, no todo el modelo.
El problema que enfrentó DFM era de escala: en FlexOlmo cada expert suele tener el tamaño de un modelo completo. Eso funciona si hay pocos expertos, pero a medida que más grupos (hospitales, universidades, empresas) aportan, el sistema se vuelve demasiado grande para correr en máquinas comunes.
FlexMoRE cambia una suposición clave: no todos los expertos deben ser del mismo tamaño. Mantiene algunos expertos a tamaño completo, pero reemplaza la mayoría con versiones compactas llamadas low-rank adapters. Esas adaptaciones son aproximaciones de lo que aprendió un expert grande, usando muchas menos parámetros. El valor que define cuánto se reduce cada adapter se llama rank.
En la práctica, DFM y el equipo descubrieron que el rank ideal depende del tipo de tarea: las tareas que requieren razonamiento profundo necesitan ranks más altos, mientras que tareas de conocimiento factual pueden conformarse con ranks bajos. Aprovechando esta distinción, FlexMoRE consigue rendir igual o mejor que una configuración estilo FlexOlmo pero usando menos de un tercio de los parámetros en su mejor configuración. Eso significa que puede correr en hardware de consumo y ampliar la audiencia que participa en modelos abiertos.
Separar el entrenamiento de los componentes y unirlos en inferencia permite compartir capacidades sin compartir datos. Eso abre puertas para iniciativas nacionales sujetas a GDPR y regulaciones similares.
Cómo funciona técnicamente (resumen para que lo puedas replicar mentalmente)
- Arquitectura base:
Mixture-of-Expertscon unrouterque decide qué expertos procesan cada token. - Diferenciación de expertos: algunos a tamaño completo; la mayoría como
low-rank adapters(factorizaciones que reducen matrices grandes a dos o más matrices más pequeñas, disminuyendo parámetros y memoria). - Selección de
rank: mayorrankpara tareas de razonamiento; menor para tareas de conocimiento factual. Es una decisión de diseño que balancea precisión versus tamaño y latencia. - Entrenamiento distribuido: cada institución puede entrenar su expert localmente con datos privados y ofrecer solo los pesos resultantes (o un adapter), sin enviar datos crudos. En inferencia, esos pesos coexisten en un ensamblado conjunto.
- Resultado práctico: menor demanda de memoria y parámetros, con rendimiento competitivo y potencial para despliegues federados o distribuidos.
Si te interesan los detalles numéricos, el hallazgo clave es: configuraciones bien elegidas de FlexMoRE superan a un baseline con expertos de tamaño completo usando menos de 33% de los parámetros.
Por qué esto importa para proyectos nacionales y datos sensibles
¿Tienes datos que no puedes compartir por regulaciones o por propiedad intelectual? Piensa en hospitales con historiales clínicos, en equipos legales con documentos confidenciales, o en universidades con corpus únicos. FlexMoRE permite que esas entidades entren componentes útiles sin ceder datos.
Beneficios concretos:
- Cumplimiento: facilita que iniciativas se alineen con GDPR y el AI Act al no mover datos sensibles.
- Accesibilidad: reduce requisitos de hardware para ejecutar modelos multimodulares, abriendo uso local en organizaciones medianas.
- Diversificación: evita la concentración de capacidades en unos pocos laboratorios comerciales, promoviendo modelos que reflejen lenguas y dominios menos atendidos.
Limitaciones y consideraciones prácticas
No es una solución mágica. Algunas cosas a tener en cuenta:
- Selección de rank es crítica: reducir demasiado puede degradar razonamiento o la fidelidad factual. Hay que evaluar por tarea.
- Latencia vs memoria: aunque se ahorra memoria, la coordinación de muchos expertos y el enrutamiento puede añadir latencia. Hay que optimizar el
routery la colocación de pesos en memoria. - Evaluación y gobernanza: es necesario un marco de evaluación común para medir la contribución de cada expert y asegurar que no se introduzcan sesgos o comportamientos no deseados.
- Interoperabilidad: estándares abiertos para cómo se empaquetan/adaptan los expertos harán más fácil que distintos participantes se integren.
Proyectos relacionados y hacia dónde va esto
La línea de trabajo no termina en FlexMoRE. Ai2 y otros grupos impulsan complementos modulares en distintas etapas:
- EMO: permite que los expertos descubran sus propias especializaciones durante preentrenamiento, en vez de fijar categorías al inicio.
- BAR: aplica modularidad a la etapa post-training, separando pipelines para instrucciones, razonamiento, llamadas a herramientas y seguridad. Así una mejora en una capacidad no rompe las demás.
Juntas, estas piezas consolidan la idea de un paradigma de entrenamiento separado e inferencia conjunta que es eficiente y práctico. Es una alternativa realista a la centralización de modelos enormes.
Al final, si tú formas parte de una institución con datos valiosos pero no compartibles, FlexMoRE ofrece una vía técnica y política para contribuir al ecosistema de modelos sin perder control sobre tus datos. ¿No te parece un avance tangible para democratizar la IA?
