DeepSeek-V4: Контекст в 1M токенов и гибридная архитектура внимания

Hero illustration: DeepSeek-V4: Контекст в 1M токенов и гибридная архитектура внимания.

Стоит читать если: вы работаете с большими контекстами, интересуетесь MoE-архитектурами и их оптимизациями, или ищете сильные открытые модели для агентов и кодинга. Можно пропустить если: вам достаточно контекста до 300K токенов, и вы не работаете с open-source моделями напрямую.

Новые модели и контекстное окно в 1M токенов

Расширение контекста до миллиона токенов стало ключевым шагом для DeepSeek-V4. Выпущены две основные модели:

deepseek-v4-pro с 1.6T общих параметров (49B активировано).
deepseek-v4-flash с 284B общих параметров (13B активировано).

Обе модели, а также их базовые версии DeepSeek-V4-Pro-Base и DeepSeek-V4-Flash-Base, поддерживают контекст длиной в один миллион токенов. Это открывает возможности для обработки очень больших документов, кодовых баз и длительных диалогов без потери информации.

Архитектурные улучшения для эффективности

DeepSeek-V4 включает несколько архитектурных изменений для повышения эффективности и стабильности. Ключевые нововведения:

Гибридная архитектура внимания. Модели используют механизм, комбинирующий Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). Это позволяет сократить вычислительные ресурсы при работе с длинными контекстами. Например, DeepSeek-V4-Pro при контексте в 1M токенов требует всего 27% FLOPs для инференса одного токена и 10% KV-кэша по сравнению с DeepSeek-V3.2.
Manifold-Constrained Hyper-Connections (mHC). Эта технология усиливает традиционные остаточные соединения, что улучшает стабильность распространения сигнала между слоями и сохраняет выразительность модели.
Оптимизатор Muon. Применение оптимизатора Muon призвано обеспечить более быструю сходимость и стабильность обучения.

Модели обучались на более чем 32 триллионах разнообразных и высококачественных токенов. Процесс постобучения включает двухэтапную парадигму: сначала независимое развитие экспертов в специфичных областях (через SFT и RL с GRPO), затем их консолидация с помощью дистилляции.

Режимы рассуждения и производительность

Модели DeepSeek-V4-Pro и DeepSeek-V4-Flash поддерживают три режима рассуждения:

Non-think: быстрые, интуитивные ответы для рутинных задач.
Think: сознательный логический анализ, обеспечивающий более точные результаты для сложных задач и планирования.
Think Max: максимальное усилие для рассуждения, подходящее для изучения границ возможностей модели.

DeepSeek-V4-Pro-Max (режим Think Max для DeepSeek-V4-Pro) показывает высокую производительность на бенчмарках. Он устанавливает себя как одна из наиболее эффективных открытых моделей, демонстрируя конкурентные результаты в задачах кодирования и сокращая отставание от закрытых моделей в задачах рассуждения и агентских сценариях. DeepSeek-V4-Flash-Max достигает сравнимой производительности в рассуждениях с Pro-версией при большем бюджете на мышление, но уступает в задачах, требующих обширных знаний.

Работа с моделями локально

Для работы с DeepSeek-V4 не используется Jinja-формат чат-шаблонов. Вместо этого предоставлена папка encoding с Python-скриптами и тестами, демонстрирующими, как кодировать сообщения в формат, совместимый с OpenAI, для ввода в модель и как парсить текстовый вывод модели.

При локальном развертывании рекомендуется использовать следующие параметры сэмплирования:

temperature = 1.0
top_p = 1.0

Для режима рассуждения Think Max рекомендуется устанавливать контекстное окно не менее 384K токенов. Все модели выпущены под лицензией MIT. DeepSeek-V4-Pro, DeepSeek-V4-Pro-Base, DeepSeek-V4-Flash, DeepSeek-V4-Flash-Base

Что это значит

Выпуск DeepSeek-V4 с контекстом в 1M токенов поднимает планку для открытых моделей. Инженеры, работающие с задачами, требующими обработки обширных документов или сложного кодирования, теперь могут использовать эти модели для создания решений, которые ранее были доступны только с закрытыми API. Возможность выбора между Pro и Flash версиями, а также режимами рассуждения, предоставляет гибкость в балансировке между производительностью, скоростью и потреблением ресурсов.

DeepSeek-V4: Контекст в 1M токенов и гибридная архитектура внимания daily

Новые модели и контекстное окно в 1M токенов

Архитектурные улучшения для эффективности

Режимы рассуждения и производительность

Работа с моделями локально

Что это значит

Источники

Оценить материал