Qué tokens predice mejor un modelo híbrido de IA

En los últimos años han aparecido modelos híbridos que mezclan capas de atención con capas recurrentes. ¿Qué ganan y qué pierden frente a un transformador puro? Olmo Hybrid y Olmo 3 fueron diseñados para responder justo a esa pregunta, token por token.

Experimento y método

La idea fue simple y elegante: comparar dos modelos lo más parecidos posible salvo por su arquitectura. Olmo 3 es un transformador de 7B, Olmo Hybrid es su versión híbrida, y ambos usan los mismos datos, tokenizador y receta de entrenamiento. Eso quiere decir que cualquier diferencia en sus predicciones refleja sobre todo la arquitectura.

Para medirlo, se pasó una variedad de textos: artículos, entradas de Wikipedia, libros, papers científicos y texto estructurado como Python, HTML y LaTeX. Cada modelo asignó una probabilidad al siguiente token real en una secuencia y se registró esa probabilidad. Al comparar token a token se calcula el loss gap, es decir, la diferencia de pérdida entre los modelos. Un gap positivo favorece al híbrido; negativo, al transformador.

Experimento y método

Cómo aislar efectos finos

Qué tipos de tokens favorece el híbrido

Por qué ocurren estas diferencias: atención vs recurrente

Evaluación por tipo de token: utilidad práctica

Qué aprender y qué sigue

Fuente original

¡Mantente al día!

Qué tokens predice mejor un modelo híbrido de IA