Гибридные языковые модели не просто показывают хорошие результаты на бенчмарках, но и обрабатывают информацию иначе, чем трансформеры. AllenAI впервые детально сравнила, как именно Olmo Hybrid и Olmo 3 предсказывают токены. Исследование выявило их комплементарные сильные стороны и объяснило, почему гибриды требуют вдвое меньше данных для достижения той же производительности на этапе обучения.
На уровне предсказания токенов Olmo Hybrid превосходит Olmo 3 в понимании смысла: гибридная модель лучше предсказывает смысловые токены — существительные, глаголы, прилагательные. Она также точнее справляется с токенами, требующими глубокого контекста, например, когда нужно понять, к какому человеку относится местоимение.
Трансформеры, напротив, сильны в предсказании повторяющихся токенов — точных фраз или слов, которые уже встречались в тексте. Это объясняется их механизмом внимания, который позволяет модели напрямую обращаться к каждому предыдущему токену, точно вспоминая его, даже если он находится далеко в тексте.
Разница в поведении моделей объясняется их архитектурой. Трансформеры используют внимание в каждом слое, что даёт им прямой доступ ко всем предыдущим токенам, но делает вычисления дорогими при росте длины входных данных и затрудняет обработку последовательно развивающейся информации. Гибридные модели сочетают несколько слоёв внимания с рекуррентными слоями. Рекуррентный слой читает токены слева направо, поддерживая память фиксированного размера и постоянно обновляя её. Это делает обработку каждого токена постоянной по стоимости, независимо от длины входа, и эффективно для отслеживания меняющегося состояния.
Такое сочетание архитектур делает гибридные модели более выразительными, чем чистые трансформеры или рекуррентные нейросети. Это преимущество напрямую транслируется в эффективность обучения: Olmo Hybrid достигает той же точности, что и Olmo 3, используя на 49% меньше токенов, что означает примерно двукратную экономию данных. Гибриды обещают быть одновременно более и экономичными при работе с длинными контекстами.
Исследование AllenAI показывает, что выбор архитектуры LLM — это не только вопрос общей производительности, но и понимание её внутренних механизмов. Зная, какие задачи лучше решают трансформеры, а какие — гибриды, разработчики смогут точнее выбирать или комбинировать модели для специфических задач, учитывая как точность, так и эффективность обучения и работы с контекстом.