Hoy JetBrains presenta Mellum2, un modelo Mixture-of-Experts (MoE) de 12 mil millones de parámetros entrenado desde cero en texto y código. Está diseñado para tareas de alta frecuencia y baja latencia: enrutamiento, RAG, resúmenes, subtareas de agentes y funciones de autocompletar en IDEs. ¿La ventaja? Solo activa 2.5B parámetros por token, así que es económico para producción.
Qué es Mellum2
Mellum2 es un modelo abierto bajo licencia Apache 2.0, pensado como un componente focal en sistemas multi-modelo. No busca ser el modelo más grande del mercado, sino uno eficiente y especializado para cargas de trabajo sensibles a la latencia. Fue entrenado en datos de lenguaje natural y código, partiendo de cero para optimizar tanto la calidad como el rendimiento de inferencia.
Arquitectura Mixture-of-Experts y por qué importa
Mellum2 usa una arquitectura Mixture-of-Experts. ¿Qué significa eso realmente? En vez de ejecutar todo el modelo para cada token, el mecanismo MoE selecciona un subconjunto de "expertos" por token mediante una red de gating. Resultado: alta capacidad total del modelo (12B parámetros) y menor trabajo por token (2.5B activos), lo que reduce latencia y costo de serving.
