Olmo 3 llega para cambiar cómo pensamos una cosa fundamental: no solo los pesos finales importan, sino todo el flujo que los genera. ¿Por qué eso es relevante para ti, investigador o desarrollador? Porque abrir el model flow significa poder intervenir en cualquier etapa, reproducir resultados y, sobre todo, entender por qué un modelo hace lo que hace.
Qué es Olmo 3 y por qué importa
Olmo 3 es una familia de modelos abiertos (7B y 32B parámetros) y, más importante, la publicación de la ruta completa de desarrollo: datos, checkpoints, código y trazabilidad hasta el dato que originó un comportamiento. No es solo publicar pesos; es publicar el proceso entero para que puedas auditar, reproducir y mejorar.
Aquí hay dos novedades clave: primero, Olmo 3-Think (32B) deja visibles los rastros intermedios de razonamiento. Segundo, todo el flujo viene con checkpoints en cada hito de entrenamiento, para que puedas pausar, forquear o mezclar etapas a voluntad.
La familia Olmo 3: Base, Think, Instruct y RL Zero
Olmo 3-Base (7B, 32B): la base robusta. Diseñada para mantener rendimiento en contextos largos (hasta ~65K tokens) y servir como plataforma para pretraining adicional o fine-tuning.
Olmo 3-Think (7B, 32B): post-entrenada para razonamiento profundo. Muestra trazas de razonamiento y compite con modelos de razonamiento abiertos de similar escala, alcanzando resultados cercanos a Qwen 3 en varios benchmarks, pero entrenando con menos tokens en algunos casos.
Olmo 3-Instruct (7B): pensada para chat, respuestas rápidas y uso de herramientas. Optimizada para eficiencia en inferencia y rendimiento en function calling e instruction following.
Olmo 3-RL Zero (7B): una vía abierta para experimentos de RL. Publican series de checkpoints por dominios: matemáticas, código, instrucciones y chat general para estudiar RL con recompensas verificables.
¿La idea práctica? Empiezas en Olmo 3-Base, eliges una ruta (Instruct, Think o RL Zero) y aplicas tus datos o tus objetivos en puntos concretos del flujo.
Arquitectura y pipeline de entrenamiento
Olmo 3 usa un transformer decoder-only y un pipeline en varias etapas:
Pretraining inicial para cobertura amplia.
Mid-training orientado a material difícil: math, code y comprensión lectora.
Extensión de contextos largos para manejar documentos extensos.
Luego viene post-training con la receta SFT -> DPO -> RLVR, documentada y reemplazable. Lo importante es que en cada paso hay checkpoints disponibles: base, mid-trained, long-context y post-trained para cada ruta.
Datos: Dolma 3, Dolci y mixes
Olmo 3 presenta un curriculum de datos completamente abierto:
Dolma 3: corpus ~9.3 billones de tokens (9.3T) que mezcla web, PDFs científicos procesados con olmOCR, repositorios de código, problemas de matemáticas y texto enciclopédico.
Dolma 3 Mix: mix de pretraining ~5.9T tokens con mayor proporción de código y matemáticas y fuerte descontaminación mediante deduplicación y filtrado.
Dolma 3 Dolmino: mid-training, ~100B tokens muestreados desde un pool de ~2.2T tokens enfocado en math, ciencia, code, instrucción y lectura profunda.
Dolma 3 Longmino: ~50B tokens para enseñar tracking en contextos muy largos a partir de un pool de 639B tokens.
Dolci: suite de post-training para SFT, DPO y RLVR con datos de alto valor para razonamiento, uso de herramientas e instrucciones.
Todos los datasets se publican con mezclas y herramientas para replicar el mismo preprocesamiento, tokenización y desduplicación.
Infraestructura y eficiencia
Entrenaron Olmo 3 en hasta 1024 GPUs H100. Para Olmo 3-Base (7B) reportan throughput de 7.7K tokens por dispositivo por segundo. En post-training, movieron SFT desde Open Instruct a Olmo Core y aumentaron la tasa de tokens por segundo en 8x. En RL, mejoras como in-flight weight updates y continuous batching hicieron la fase 4x más eficiente.
Además, señalan que 32B es un punto práctico: lo suficientemente capaz para investigación seria y lo suficientemente accesible para que equipos con recursos medianos puedan ajustar y desplegar.
Rendimiento y benchmarks técnicos
Olmo 3 fue evaluado con una suite amplia y actualizada, agrupando tareas estándar y algunas nuevas. Resultados destacados:
Olmo 3-Base 32B lidera entre modelos totalmente abiertos en programación, comprensión lectora, matemáticas y benchmarks de largo contexto como RULER.
Olmo 3-Think 32B es uno de los thinking models abiertos más sólidos; empata o queda muy cerca de los mejores modelos con pesos abiertos (p. ej. Qwen 3 32B) en MATH, OMEGA, BigBench Hard, HumanEvalPlus y PopQA.
Olmo 3-Instruct 7B ofrece un rendimiento competitivo y eficiente para chat y llamadas a funciones, igualando o superando otros pesos abiertos de su escala.
En resumen: Olmo 3 cierra la brecha en reasoning y mantiene excelentes capacidades en tareas prácticas.
Herramientas, trazabilidad y reproducibilidad
Olmo 3 incluye un conjunto de herramientas para que el flujo sea realmente accionable:
OlmoTrace para mapear salidas del modelo a ejemplos de entrenamiento en tiempo real.
olmo-core para entrenamiento distribuido.
Open Instruct para post-training flexible.
datamap-rs para limpieza a gran escala en Rust.
duplodocus para de-duplicación fuzzy eficiente.
OLMES para evals reproducibles y OlmoBaseEval como colección de benchmarks.
decon para remover conjuntos de test de datos de entrenamiento.
Con estas utilidades puedes reproducir curvas de entrenamiento, correr ablations o instrumentar trazas intermedias para entender por qué el modelo se equivoca o acierta.
Cómo puedes usar Olmo 3 hoy
Si investigas razonamiento, usa Olmo 3-Think y explora las trazas para diseñar mejores objectives o recompensas.
Si desarrollas agentes o asistentes, prueba Olmo 3-Instruct para chat y function calling eficientes.
Si quieres experimentar con RL, parte de Olmo 3-RL Zero te da checkpoints y un pipeline reproducible.
¿Necesitas especializarlo? Inserta tus datos en mid-training o forkea un checkpoint que tenga la mezcla de datos que te interesa.
Todo está pensado para que puedas repetir los pasos exactos del equipo que desarrolló Olmo 3 o crear variantes propias, ya sea en un notebook local o en un clúster de investigación.
Olmo 3 apuesta por una noción práctica de apertura: no basta con compartir pesos, hay que compartir el conocimiento y las herramientas que explican esos pesos. Si te interesa auditar un modelo, mejorar su sesgo de datos, o simplemente entender cómo emergen habilidades complejas, aquí tienes un flujo completo para hacerlo.