Olmo Hybrid 7B: híbrido transformer + RNN mejora eficiencia

Olmo Hybrid llega para mostrar que mezclar transformadores con RNNs lineales no es una curiosidad teórica: es una vía práctica para entrenar modelos más expresivos y más eficientes con grandes contextos. ¿Por qué esto importa? Porque promete bajar la cantidad de datos y el cómputo necesarios para alcanzar el mismo nivel de capacidad.

Qué es Olmo Hybrid y por qué importa

Olmo Hybrid es una familia de modelos totalmente abierta de 7B parámetros que intercala capas de transformador con capas lineales recurrentes modernas llamadas Gated DeltaNet. La receta arquitectural sigue un patrón 3:1: tres subcapas DeltaNet por cada subcapa de multihead attention, es decir, reemplaza 75% del mixing por atención con rutas recurrentes de estado.

Entrenaron Olmo Hybrid sobre 6 billones de tokens usando la mezcla de datos mejorada de Olmo 3 32B, en una corrida de preentrenamiento con 512 GPUs (comenzando en NVIDIA H100 y luego migrando a NVIDIA HGX B200 en infraestructura de Lambda). Importante: la tasa de throughput de entrenamiento se emparejó con Olmo 3, así que las ganancias no vienen de entrenar más rápido, sino de la arquitectura híbrida.

Qué es Olmo Hybrid y por qué importa

Resultados clave y métricas técnicas

Arquitectura y por qué la teoría respalda los resultados

Implementación práctica y consideraciones de entrenamiento

Tradeoffs y limitaciones

Qué sigue y cómo puedes experimentarlo

Reflexión final

Fuente original

¡Mantente al día!

Olmo Hybrid 7B: híbrido transformer + RNN mejora eficiencia