DeepSeek-V3.2-Exp: разреженное внимание ускоряет длинный контекст и снижает цены

Hero illustration: DeepSeek-V3.2-Exp: разреженное внимание ускоряет длинный контекст и снижает цены.

Стоит читать если: вы используете модели DeepSeek в продакшене, работаете с длинными контекстами или ищете способы снизить расходы на inference. Можно пропустить если: ваша работа не связана с моделями DeepSeek или с оптимизацией затрат на большие языковые модели.

Новая архитектура DeepSeek Sparse Attention и снижение цен

DeepSeek представил экспериментальную модель DeepSeek-V3.2-Exp, которая внедряет новую архитектуру разреженного внимания — DeepSeek Sparse Attention (DSA). Эта модель является развитием V3.1-Terminus и призвана повысить эффективность обучения и вывода, особенно при работе с длинными контекстами.

Суть изменений. DSA-архитектура направлена на оптимизацию операций внимания, что критически важно для моделей, обрабатывающих большие объёмы данных. За счёт разреженности снижается вычислительная сложность, что приводит к более высокой скорости и меньшим затратам ресурсов.

Обновление моделей API. В рамках этого релиза модели deepseek-chat и deepseek-reasoner теперь используют DeepSeek-V3.2-Exp. Важно отметить, что deepseek-chat соответствует немыслительному режиму новой модели, а deepseek-reasoner — мыслительному режиму. Это означает, что разработчики могут ожидать улучшения производительности и экономии при использовании этих API.

Снижение стоимости. DeepSeek объявил о снижении цен на API более чем на 50%. Это прямое следствие внедрения DSA и оптимизации внутренних процессов. Подобное снижение может существенно повлиять на экономику проектов, активно использующих LLM, особенно для задач, требующих больших объёмов токенов.

Переходный период. Для сравнительного тестирования модель V3.1-Terminus будет временно доступна через API до 15 октября 2025 года. Это даёт инженерам возможность сравнить поведение и производительность двух версий до полного перехода на новую архитектуру.

Ссылки:

Что это значит

Внедрение новой архитектуры разреженного внимания и одновременное снижение цен на API сигнализирует о стратегическом фокусе DeepSeek на эффективность и масштабируемость. Для разработчиков это открывает двери к более смелому экспериментированию с длинными контекстами, не опасаясь резкого роста затрат. Стоит внимательно отслеживать бенчмарки и реальную производительность DeepSeek-V3.2-Exp в ваших задачах, особенно в свете временной доступности V3.1-Terminus для сравнения.

DeepSeek-V3.2-Exp: разреженное внимание ускоряет длинный контекст и снижает цены daily

Новая архитектура DeepSeek Sparse Attention и снижение цен

Что это значит

Источники

Оценить материал