Стоит читать если: вы работаете с большими контекстами, интересуетесь MoE-архитектурами и их оптимизациями, или ищете сильные открытые модели для агентов и кодинга. Можно пропустить если: вам достаточно контекста до 300K токенов, и вы не работаете с open-source моделями напрямую.
Новые модели и контекстное окно в 1M токенов
Расширение контекста до миллиона токенов стало ключевым шагом для DeepSeek-V4. Выпущены две основные модели:
- deepseek-v4-pro с 1.6T общих параметров (49B активировано).
- deepseek-v4-flash с 284B общих параметров (13B активировано).
Обе модели, а также их базовые версии DeepSeek-V4-Pro-Base и DeepSeek-V4-Flash-Base, поддерживают контекст длиной в один миллион токенов. Это открывает возможности для обработки очень больших документов, кодовых баз и длительных диалогов без потери информации.
Архитектурные улучшения для эффективности
DeepSeek-V4 включает несколько архитектурных изменений для повышения эффективности и стабильности. Ключевые нововведения:
- Гибридная архитектура внимания. Модели используют механизм, комбинирующий Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). Это позволяет сократить вычислительные ресурсы при работе с длинными контекстами. Например,
DeepSeek-V4-Proпри контексте в 1M токенов требует всего 27% FLOPs для инференса одного токена и 10% KV-кэша по сравнению с DeepSeek-V3.2. - Manifold-Constrained Hyper-Connections (mHC). Эта технология усиливает традиционные остаточные соединения, что улучшает стабильность распространения сигнала между слоями и сохраняет выразительность модели.
- Оптимизатор Muon. Применение оптимизатора Muon призвано обеспечить более быструю сходимость и стабильность обучения.
Модели обучались на более чем 32 триллионах разнообразных и высококачественных токенов. Процесс постобучения включает двухэтапную парадигму: сначала независимое развитие экспертов в специфичных областях (через SFT и RL с GRPO), затем их консолидация с помощью дистилляции.
Режимы рассуждения и производительность
Модели DeepSeek-V4-Pro и DeepSeek-V4-Flash поддерживают три режима рассуждения:
- Non-think: быстрые, интуитивные ответы для рутинных задач.
- Think: сознательный логический анализ, обеспечивающий более точные результаты для сложных задач и планирования.
- Think Max: максимальное усилие для рассуждения, подходящее для изучения границ возможностей модели.
DeepSeek-V4-Pro-Max (режим Think Max для DeepSeek-V4-Pro) показывает высокую производительность на бенчмарках. Он устанавливает себя как одна из наиболее эффективных открытых моделей, демонстрируя конкурентные результаты в задачах кодирования и сокращая отставание от закрытых моделей в задачах рассуждения и агентских сценариях. DeepSeek-V4-Flash-Max достигает сравнимой производительности в рассуждениях с Pro-версией при большем бюджете на мышление, но уступает в задачах, требующих обширных знаний.
Работа с моделями локально
Для работы с DeepSeek-V4 не используется Jinja-формат чат-шаблонов. Вместо этого предоставлена папка encoding с Python-скриптами и тестами, демонстрирующими, как кодировать сообщения в формат, совместимый с OpenAI, для ввода в модель и как парсить текстовый вывод модели.
При локальном развертывании рекомендуется использовать следующие параметры сэмплирования:
temperature = 1.0top_p = 1.0
Для режима рассуждения Think Max рекомендуется устанавливать контекстное окно не менее 384K токенов. Все модели выпущены под лицензией MIT.
DeepSeek-V4-Pro, DeepSeek-V4-Pro-Base, DeepSeek-V4-Flash, DeepSeek-V4-Flash-Base
Что это значит
Выпуск DeepSeek-V4 с контекстом в 1M токенов поднимает планку для открытых моделей. Инженеры, работающие с задачами, требующими обработки обширных документов или сложного кодирования, теперь могут использовать эти модели для создания решений, которые ранее были доступны только с закрытыми API. Возможность выбора между Pro и Flash версиями, а также режимами рассуждения, предоставляет гибкость в балансировке между производительностью, скоростью и потреблением ресурсов.