AI News Watcher
Thursday, Jun 25, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 25, 2026 · 2 min read · HuggingFace ← Back to feed

Olmo Hybrid: вдвое меньше данных для той же мощности — и предсказывает иначе daily

Гибридные модели лучше улавливают контекст, а трансформеры точнее цитируют — это меняет подход к выбору архитектур.

Olmo Hybrid: вдвое меньше данных для той же мощности — и предсказывает иначе
Редакция · Daily briefing

Гибридные языковые модели не просто показывают хорошие результаты на бенчмарках, но и обрабатывают информацию иначе, чем трансформеры. AllenAI впервые детально сравнила, как именно Olmo Hybrid и Olmo 3 предсказывают токены. Исследование выявило их комплементарные сильные стороны и объяснило, почему гибриды требуют вдвое меньше данных для достижения той же производительности на этапе обучения.

На уровне предсказания токенов Olmo Hybrid превосходит Olmo 3 в понимании смысла: гибридная модель лучше предсказывает смысловые токены — существительные, глаголы, прилагательные. Она также точнее справляется с токенами, требующими глубокого контекста, например, когда нужно понять, к какому человеку относится местоимение.

Трансформеры, напротив, сильны в предсказании повторяющихся токенов — точных фраз или слов, которые уже встречались в тексте. Это объясняется их механизмом внимания, который позволяет модели напрямую обращаться к каждому предыдущему токену, точно вспоминая его, даже если он находится далеко в тексте.

Разница в поведении моделей объясняется их архитектурой. Трансформеры используют внимание в каждом слое, что даёт им прямой доступ ко всем предыдущим токенам, но делает вычисления дорогими при росте длины входных данных и затрудняет обработку последовательно развивающейся информации. Гибридные модели сочетают несколько слоёв внимания с рекуррентными слоями. Рекуррентный слой читает токены слева направо, поддерживая память фиксированного размера и постоянно обновляя её. Это делает обработку каждого токена постоянной по стоимости, независимо от длины входа, и эффективно для отслеживания меняющегося состояния.

Такое сочетание архитектур делает гибридные модели более выразительными, чем чистые трансформеры или рекуррентные нейросети. Это преимущество напрямую транслируется в эффективность обучения: Olmo Hybrid достигает той же точности, что и Olmo 3, используя на 49% меньше токенов, что означает примерно двукратную экономию данных. Гибриды обещают быть одновременно более и экономичными при работе с длинными контекстами.

Исследование AllenAI показывает, что выбор архитектуры LLM — это не только вопрос общей производительности, но и понимание её внутренних механизмов. Зная, какие задачи лучше решают трансформеры, а какие — гибриды, разработчики смогут точнее выбирать или комбинировать модели для специфических задач, учитывая как точность, так и эффективность обучения и работы с контекстом.

Дополнительные источники

  1. Comparing Transformers and Hybrid Models at the Token Level
  2. Olmo Hybrid: From Theory to Practice and Back
  3. Olmo 3: Charting a path through the model flow to lead open-source AI
  4. Introducing Olmo Hybrid: Combining transformers and linear RNNs for superior scaling
  5. Olmo-3.1-32B-Instruct
  6. Olmo-Hybrid-7B
  7. arxiv.org
  8. lambda.ai

Источники

  1. https://huggingface.co/blog/allenai/hybrid-token-prediction external
→ Опубликовано в Telegram: @agentic_ai_news/582