JetBrains lanza Mellum2: MoE 12B para código y texto

1 jun 2026Keryc Díaz3 minutos

Hoy JetBrains presenta Mellum2, un modelo Mixture-of-Experts (MoE) de 12 mil millones de parámetros entrenado desde cero en texto y código. Está diseñado para tareas de alta frecuencia y baja latencia: enrutamiento, RAG, resúmenes, subtareas de agentes y funciones de autocompletar en IDEs. ¿La ventaja? Solo activa 2.5B parámetros por token, así que es económico para producción.

Qué es Mellum2

Mellum2 es un modelo abierto bajo licencia Apache 2.0, pensado como un componente focal en sistemas multi-modelo. No busca ser el modelo más grande del mercado, sino uno eficiente y especializado para cargas de trabajo sensibles a la latencia. Fue entrenado en datos de lenguaje natural y código, partiendo de cero para optimizar tanto la calidad como el rendimiento de inferencia.

Arquitectura Mixture-of-Experts y por qué importa

Mellum2 usa una arquitectura Mixture-of-Experts. ¿Qué significa eso realmente? En vez de ejecutar todo el modelo para cada token, el mecanismo MoE selecciona un subconjunto de "expertos" por token mediante una red de gating. Resultado: alta capacidad total del modelo (12B parámetros) y menor trabajo por token (2.5B activos), lo que reduce latencia y costo de serving.

Esto trae beneficios concretos: más capacidad para captar patrones complejos en código y lenguaje, sin pagar el costo de ejecutar todos los pesos cada vez. Pero también hay retos operativos: balanceo de carga entre expertos, soporte en el runtime para kernels MoE y memoria para los parámetros de los expertos. JetBrains documenta estas decisiones en su reporte técnico.

Importante: la eficiencia teórica se cumple en práctica si tu infraestructura soporta MoE eficientemente. Sin esos optimizados, la ganancia puede reducirse.

Rendimiento y benchmarks

En su reporte técnico Mellum2 muestra que es competitivo con modelos de tamaño similar en benchmarks de generación de código, razonamiento, ciencia y matemáticas, y entrega más de 2x velocidad de inferencia respecto a comparables. Eso lo convierte en una opción atractiva cuando necesitas throughput alto: pipelines de RAG que envían muchos fragmentos, validaciones intermedias de agentes y autocompletado en tiempo real.

Si quieres ver detalles sobre arquitectura, configuración de entrenamiento, métricas y metodología de evaluación, revisa el informe técnico en arXiv: https://arxiv.org/pdf/2605.31268

Casos de uso prácticos

Enrutamiento y orquestación: clasificación de prompts, selección de herramientas y control de flujo entre modelos.
RAG y recuperación: compresión de contexto, postprocesamiento de resultados y resúmenes rápidos antes de llamar a un modelo grande.
Sub-agentes y planificación: pasos intermedios como validación, transformación y preparación de contexto sin invocar modelos costosos.
Funciones de código de alta frecuencia: autocompletado, sugerencias y refactorizaciones rápidas dentro de un IDE.
Despliegue privado: como es abierto y eficiente, puedes alojarlo en infraestructura propia con datos sensibles o código propietario.

¿Trabajas dentro de un IDE o construyes pipelines de RAG? Mellum2 está pensado justamente para reducir latencia y costos en esos puntos calientes.

Consideraciones técnicas al desplegar Mellum2

Infraestructura: para explotar la ganancia de MoE necesitas runtimes con soporte para gating, balanceo de carga y comunicación eficiente entre dispositivos.
Latencia vs costo: activar solo 2.5B parámetros reduce FLOPs por token, pero el routing añade overhead. Prueba y mide en tu stack.
Integración en stacks multi-modelo: úsalo como router ligero o como etapa intermedia. No necesariamente reemplaza modelos grandes para razonamiento profundo.
Monitorización: vigila latencias tail, utilización de expertos y latencia por cola para evitar hotspots.

Cómo probarlo

Descarga el modelo y los artefactos desde la colección en Hugging Face: https://huggingface.co/collections/JetBrains/mellum-2

El reporte técnico tiene la receta completa de entrenamiento, benchmarks y la metodología: https://arxiv.org/pdf/2605.31268

Reflexión final

Mellum2 no pretende ser una batería de herramientas para todo. Su fuerza está en ser un modelo especializado: rápido, compacto en inferencia y abierto para despliegues privados. Si tu sistema necesita muchos llamados rápidos —enrutamiento, preprocesos, validaciones o autocompletados— probar Mellum2 puede reducir latencia y costos sin sacrificar calidad.

Fuente original

https://huggingface.co/blog/JetBrains/mellum2-launch

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.

Qué es Mellum2

Arquitectura Mixture-of-Experts y por qué importa

Importante: la eficiencia teórica se cumple en práctica si tu infraestructura soporta MoE eficientemente. Sin esos optimizados, la ganancia puede reducirse.

Rendimiento y benchmarks

Si quieres ver detalles sobre arquitectura, configuración de entrenamiento, métricas y metodología de evaluación, revisa el informe técnico en arXiv: https://arxiv.org/pdf/2605.31268

Casos de uso prácticos

Enrutamiento y orquestación: clasificación de prompts, selección de herramientas y control de flujo entre modelos.

RAG y recuperación: compresión de contexto, postprocesamiento de resultados y resúmenes rápidos antes de llamar a un modelo grande.

Sub-agentes y planificación: pasos intermedios como validación, transformación y preparación de contexto sin invocar modelos costosos.

Funciones de código de alta frecuencia: autocompletado, sugerencias y refactorizaciones rápidas dentro de un IDE.

Despliegue privado: como es abierto y eficiente, puedes alojarlo en infraestructura propia con datos sensibles o código propietario.

¿Trabajas dentro de un IDE o construyes pipelines de RAG? Mellum2 está pensado justamente para reducir latencia y costos en esos puntos calientes.

Consideraciones técnicas al desplegar Mellum2

Infraestructura: para explotar la ganancia de MoE necesitas runtimes con soporte para gating, balanceo de carga y comunicación eficiente entre dispositivos.

Latencia vs costo: activar solo 2.5B parámetros reduce FLOPs por token, pero el routing añade overhead. Prueba y mide en tu stack.

Integración en stacks multi-modelo: úsalo como router ligero o como etapa intermedia. No necesariamente reemplaza modelos grandes para razonamiento profundo.

Monitorización: vigila latencias tail, utilización de expertos y latencia por cola para evitar hotspots.

Reflexión final