Qué tokens predice mejor un modelo híbrido de IA | Keryc
En los últimos años han aparecido modelos híbridos que mezclan capas de atención con capas recurrentes. ¿Qué ganan y qué pierden frente a un transformador puro? Olmo Hybrid y Olmo 3 fueron diseñados para responder justo a esa pregunta, token por token.
Experimento y método
La idea fue simple y elegante: comparar dos modelos lo más parecidos posible salvo por su arquitectura. Olmo 3 es un transformador de 7B, Olmo Hybrid es su versión híbrida, y ambos usan los mismos datos, tokenizador y receta de entrenamiento. Eso quiere decir que cualquier diferencia en sus predicciones refleja sobre todo la arquitectura.
Para medirlo, se pasó una variedad de textos: artículos, entradas de Wikipedia, libros, papers científicos y texto estructurado como Python, HTML y LaTeX. Cada modelo asignó una probabilidad al siguiente token real en una secuencia y se registró esa probabilidad. Al comparar token a token se calcula el loss gap, es decir, la diferencia de pérdida entre los modelos. Un gap positivo favorece al híbrido; negativo, al transformador.
Cómo aislar efectos finos
No basta promediar. Algunas categorías de tokens son raras o se repiten mucho, lo que distorsiona resultados simples. Por eso los investigadores hicieron dos cosas: 1) agrupar tokens por categoría y promediar el loss gap, y 2) usar regresiones que controlan por factores como frecuencia y repetición. Así emergen efectos reales atribuibles a la arquitectura.
Qué tipos de tokens favorece el híbrido
El hallazgo central es claro: el híbrido tiene ventaja real en muchas clases de tokens, pero no en todas.
El híbrido destaca en tokens de contenido: sustantivos, verbos, adjetivos y adverbios. Es decir, las palabras que cargan significado sobre de qué va la frase.
También muestra fortaleza en tokens que requieren seguir el flujo del texto, por ejemplo la resolución de pronombres y decisiones de referencia, donde hace falta llevar un seguimiento del estado.
En cambio, su ventaja se reduce mucho en tokens funcionales como "the", "of" o "is", que la sintaxis casi determina.
Un patrón notable: cuando el siguiente token es una copia literal de algo que ya apareció antes en el mismo pasaje, la ventaja del híbrido casi desaparece. En n-gramas repetidos la capacidad de copiar exacto favorece mucho al transformador, y cuanto más larga es la repetición, menos ventaja tiene el híbrido.
Por qué ocurren estas diferencias: atención vs recurrente
Piensa en cada capa como un lector que refina la representación de cada palabra usando el contexto.
En un transformador, la atención permite mirar directamente cualquier token anterior y pesar su relevancia. Eso es excelente para recuperar una palabra exacta que apareció hace muchas posiciones. El problema es que la atención escala en costo con la longitud del contexto y no es naturalmente la mejor herramienta para llevar un estado secuencial que evoluciona.
En una capa recurrente, el modelo lee de izquierda a derecha y acumula una memoria de tamaño fijo. Esa memoria es comprimida y algo perdida, por eso no llega a recuperar una copia exacta tan bien como la atención. Pero es muy buena para llevar un registro del estado o de cómo cambia la información a medida que avanzas, lo que ayuda a predecir palabras relacionadas con el significado en curso.
Esa complementariedad explica por qué un híbrido, que combina unas pocas capas de atención con recurrentes, puede aprovechar lo mejor de ambos mundos.
Evaluación por tipo de token: utilidad práctica
Inspirados por los resultados, los autores proponenen usar pérdidas filtradas por tipo de token como método de evaluación fino en preentrenamiento. Probaron tres modelos de 1B: transformador puro, híbrido y recurrente puro. Los hallazgos:
En tokens con carga de significado que no son repeticiones, el híbrido y el recurrente puro superan al transformador, con el híbrido como el mejor.
En tokens que requieren copiar verbatim (repetidos), el recurrente puro se queda atrás por no tener atención, y el transformador suele dominar.
Esto demuestra que una métrica global de pérdida es demasiado burda para comparar arquitecturas. Las pérdidas filtradas por tipo de token sacan a la luz diferencias tempranas en entrenamiento, como habilidades de copia y seguimiento de estado.
Qué aprender y qué sigue
Dos lecciones prácticas:
No mires solo la pérdida promedio. Si quieres entender por qué un diseño funciona mejor, mira la pérdida en subconjuntos relevantes de tokens.
Los híbridos parecen especialmente buenos en palabras que transmiten significado y en seguimiento de estado, probablemente gracias a las capas recurrentes.
Para diseñar mejores híbridos hace falta entender, token por token, qué aporta cada componente. Eso permitirá arquitecturas más eficientes y precisas según la tarea: generación coherente a largo plazo, copiar texto exacto, o resolver referencias complejas.
Si te interesa experimentar, los autores invitan a probar Olmo 3, Olmo Hybrid y los artefactos abiertos para jugar con estas ideas. ¿Quieres evaluar un modelo en tu propio corpus? Filtrar pérdidas por tipo de token es una herramienta poderosa y práctica para obtener respuestas claras.