AI News Watcher
Monday, Sep 29, 2025  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Sep 29, 2025 · 2 min read · DeepSeek ← Back to feed

DeepSeek-V3.2-Exp: разреженное внимание ускоряет длинный контекст и снижает цены daily

Когда провайдеры моделей радикально меняют архитектуру, это обычно означает одно из двух: либо решаются фундаментальные проблемы производительности, либо открываются новые возможности для разработчиков. В случае с DeepSeek, судя по релизу, это скорее второе, но с бонусом в виде первого — модель стала быстрее и дешевле для работы с большим контекстом.

Hero illustration: DeepSeek-V3.2-Exp: разреженное внимание ускоряет длинный контекст и снижает цены.

Редакция · Daily briefing

Стоит читать если: вы используете модели DeepSeek в продакшене, работаете с длинными контекстами или ищете способы снизить расходы на inference. Можно пропустить если: ваша работа не связана с моделями DeepSeek или с оптимизацией затрат на большие языковые модели.

Новая архитектура DeepSeek Sparse Attention и снижение цен

DeepSeek представил экспериментальную модель DeepSeek-V3.2-Exp, которая внедряет новую архитектуру разреженного внимания — DeepSeek Sparse Attention (DSA). Эта модель является развитием V3.1-Terminus и призвана повысить эффективность обучения и вывода, особенно при работе с длинными контекстами.

Суть изменений. DSA-архитектура направлена на оптимизацию операций внимания, что критически важно для моделей, обрабатывающих большие объёмы данных. За счёт разреженности снижается вычислительная сложность, что приводит к более высокой скорости и меньшим затратам ресурсов.

Обновление моделей API. В рамках этого релиза модели deepseek-chat и deepseek-reasoner теперь используют DeepSeek-V3.2-Exp. Важно отметить, что deepseek-chat соответствует немыслительному режиму новой модели, а deepseek-reasoner — мыслительному режиму. Это означает, что разработчики могут ожидать улучшения производительности и экономии при использовании этих API.

Снижение стоимости. DeepSeek объявил о снижении цен на API более чем на 50%. Это прямое следствие внедрения DSA и оптимизации внутренних процессов. Подобное снижение может существенно повлиять на экономику проектов, активно использующих LLM, особенно для задач, требующих больших объёмов токенов.

Переходный период. Для сравнительного тестирования модель V3.1-Terminus будет временно доступна через API до 15 октября 2025 года. Это даёт инженерам возможность сравнить поведение и производительность двух версий до полного перехода на новую архитектуру.

Ссылки:

Что это значит

Внедрение новой архитектуры разреженного внимания и одновременное снижение цен на API сигнализирует о стратегическом фокусе DeepSeek на эффективность и масштабируемость. Для разработчиков это открывает двери к более смелому экспериментированию с длинными контекстами, не опасаясь резкого роста затрат. Стоит внимательно отслеживать бенчмарки и реальную производительность DeepSeek-V3.2-Exp в ваших задачах, особенно в свете временной доступности V3.1-Terminus для сравнения.

Источники

  1. https://api-docs.deepseek.com/updates docs
  2. https://api-docs.deepseek.com/news/news250929 docs
  3. https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp docs
  4. https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp-Base docs