Qué tokens predice mejor un modelo híbrido de IA | Keryc
Los modelos híbridos están ganando terreno, pero ¿qué hacen mejor en realidad: recordar palabras exactas o seguir el hilo semántico de un texto? Ai2 comparó su transformer más fuerte (Olmo 3, 7B) con Olmo Hybrid para responder exactamente eso, token por token.
Resumen del experimento
Piénsalo así: dos modelos construidos con la misma data, el mismo tokenizer y la misma receta de entrenamiento, pero con arquitecturas distintas. La diferencia de comportamiento que veas entre ellos probablemente venga de la arquitectura misma. Ai2 enfrentó Olmo 3 (transformer) y Olmo Hybrid en una batería de textos —artículos, entradas de Wikipedia, libros, papers y texto estructurado como Python, HTML y LaTeX— y midió, para cada token, cuál modelo le asignó mayor probabilidad al siguiente token real.
La medida clave es el loss gap: la diferencia de pérdida entre modelos para cada token. Si el loss gap es positivo, el híbrido predice mejor; si es negativo, gana el transformer.
Atención versus recurrencia — y cómo se distingue su influencia
Un transformer aplica atención en cada capa: puede mirar cualquier token anterior directamente y elegir cuánto influye. Eso es fantástico para copiar exactamente algo que apareció lejos en el contexto, pero el costo crece con el cuadrado de la longitud del input. Además, la atención no es la mejor en representar cómo cambia un estado a medida que avanza el texto.
Un modelo híbrido mantiene algunas capas de atención pero reemplaza otras con capas recurrentes. Las capas recurrentes leen izquierda a derecha y mantienen una memoria de tamaño fijo: procesar entradas largas no sube el costo por token. Esa memoria es comprimida y con pérdida, así que no es buena para recuperar copias exactas que aparecieron lejos, pero sí para seguir y actualizar estados que evolucionan (por ejemplo, quién es el sujeto en una historia, o el estado de una variable en código).
¿Por qué comparar token por token? Porque las ventajas arquitectónicas aparecen en tipos específicos de predicción. Ai2 no solo promedió pérdidas: clasificó tokens en categorías y usó regresiones para aislar el efecto de cada categoría manteniendo otras variables constantes (frecuencia, repetición, etc.). Eso evita conclusiones engañosas por simples promedios.
Qué tokens favorecen a cada arquitectura
Los hallazgos principales son claros y reproducibles:
El híbrido gana en tokens con significado: nombres, verbos, adjetivos y adverbios. El loss gap típico es alrededor de 0.04 para palabras de contenido, menor (cerca de 0.02) para palabras funcionales como "the" o "of". Eso sugiere que las capas recurrentes ayudan a seguir información que cambia y a construir representaciones semánticas más sólidas.
El híbrido también supera al transformer en tareas de resolución contextual, por ejemplo entender a qué persona refiere un pronombre. Ahí la capacidad de rastrear estado secuencialmente parece pagar dividendos.
Por el contrario, la ventaja del híbrido prácticamente desaparece cuando la siguiente palabra es una repetición literal de algo que ya estaba en el texto. Ai2 buscó n-grams repetidos: cuanto más larga la secuencia repetida, menor es la ventaja del híbrido hasta casi cero. En esas situaciones el transformer se comporta mejor o empata, porque la atención puede recuperar puntualmente un token lejano.
Un caso puntual y consistente: el transformer predice mejor el cierre de llaves o paréntesis (closing braces) en lenguaje, código y markup. La explicación es que el apareamiento de paréntesis es un patrón que la atención puede representar exactamente sin ayuda recurrente.
Evaluaciones filtradas: una forma más sensible de comparar arquitecturas
Ai2 propuso usar pérdidas filtradas —es decir, medir el loss solo en tokens que prueban una habilidad específica— como métrica de comparación en preentrenamiento. Probaron esto con tres modelos de 1B parámetros: transformer puro, híbrido y recurrente puro (sin atención):
En tokens de contenido que no son repeticiones, tanto el híbrido como el recurrente puro superan al transformer; el híbrido es el mejor.
En tokens que son repeticiones, el recurrente puro se queda atrás (por falta de atención para copiar), mientras que transformer e híbrido se desempeñan mejor.
Estas métricas filtradas revelan diferencias finas (copiar vs. razonar sobre estados) mucho antes de que el promedio global de pérdida las muestre.
Implicaciones prácticas y recomendaciones
¿Qué nos dicen estos resultados si trabajas con modelos o diseñas arquitecturas?
No confíes solo en el loss promedio para comparar arquitecturas. Si tu aplicación necesita seguir estados o razonar sobre cambios (resúmenes largos, diálogos con referencia pronominal, análisis de código que requiere seguimiento de variables), una evaluación filtrada en tokens de contenido te dará señal clara.
Si tu tarea requiere copiar texto literalmente (completado de código con muchos tokens repetidos, plantillas, respuestas que reusan frases exactas), la atención sigue siendo una pieza clave.
Para modelos a escala, los híbridos parecen ofrecer un buen balance: mantienen capacidad de copia razonable (por las capas de atención que conservan) y mejoran en seguimiento y representación secuencial gracias a las capas recurrentes, con costos computacionales más amables en contexto largo.
Hacia dónde va esto
La lección principal es metodológica: medir por tipos de token nos da una radiografía más útil de qué hace bien cada componente de un modelo. Ai2 usará estas ideas para iterar en híbridos más eficientes y entender mejor por qué ciertas capas ayudan en tareas concretas.
Un modelo no es solo un número promedio. Entender qué tokens favorece te permite diseñar arquitecturas y métricas alineadas con la utilidad real.
Si te interesa construir o evaluar modelos para tareas específicas, empezar por identificar los tipos de token críticos en tu dominio y medir pérdidas filtradas puede cambiar por completo qué arquitectura eliges.