Qué tokens predice mejor un modelo híbrido de IA

Los modelos híbridos están ganando terreno, pero ¿qué hacen mejor en realidad: recordar palabras exactas o seguir el hilo semántico de un texto? Ai2 comparó su transformer más fuerte (Olmo 3, 7B) con Olmo Hybrid para responder exactamente eso, token por token.

Resumen del experimento

Piénsalo así: dos modelos construidos con la misma data, el mismo tokenizer y la misma receta de entrenamiento, pero con arquitecturas distintas. La diferencia de comportamiento que veas entre ellos probablemente venga de la arquitectura misma. Ai2 enfrentó Olmo 3 (transformer) y Olmo Hybrid en una batería de textos —artículos, entradas de Wikipedia, libros, papers y texto estructurado como Python, HTML y LaTeX— y midió, para cada token, cuál modelo le asignó mayor probabilidad al siguiente token real.

La medida clave es el loss gap: la diferencia de pérdida entre modelos para cada token. Si el loss gap es positivo, el híbrido predice mejor; si es negativo, gana el transformer.

Resumen del experimento

Atención versus recurrencia — y cómo se distingue su influencia

Qué tokens favorecen a cada arquitectura

Evaluaciones filtradas: una forma más sensible de comparar arquitecturas

Implicaciones prácticas y recomendaciones

Hacia dónde va esto

Fuente original

¡Mantente al día!

Qué tokens predice mejor un modelo híbrido de IA