DeepSeek-V4: миллион токенов контекста — в 10 раз экономнее для памяти

Миллион токенов контекста в языковой модели звучит впечатляюще, но на практике такой объём часто приводит к перегрузке памяти и замедлению работы. DeepSeek-AI утверждает, что решила эту проблему в своей новой серии моделей DeepSeek-V4-Pro и DeepSeek-V4-Flash, сделав длинный контекст по-настоящему пригодным для сложных AI-агентов.

DeepSeek-AI выпустила две модели: DeepSeek-V4-Pro (1.6 триллиона общих параметров, 49 миллиардов активных) и DeepSeek-V4-Flash (284 миллиарда общих параметров, 13 миллиардов активных). Обе поддерживают контекст длиной до одного миллиона токенов. Главное достижение — эффективность: для контекста в 1 миллион токенов DeepSeek-V4-Pro требует всего 27% операций с плавающей точкой (FLOPs) на токен и 10% KV-кэша (памяти для хранения ключей и значений) по сравнению с DeepSeek-V3.2. Это делает модели DeepSeek-V4 подходящими для долгих задач AI-агентов, где контекст постоянно растёт.

Эффективность достигается за счёт нескольких ключевых архитектурных улучшений и оптимизаций:

Гибридная архитектура внимания (Hybrid Attention Architecture): сочетает Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA) для повышения эффективности работы с длинным контекстом.
Манифолд-ограниченные гиперсвязи (Manifold-Constrained Hyper-Connections, mHC): усиливают стандартные остаточные связи, повышая стабильность распространения сигнала между слоями.
Оптимизатор Muon: обеспечивает более быструю сходимость и стабильность обучения.

Модели были предварительно обучены на более чем 32 триллионах высококачественных токенов. DeepSeek-V4-Pro и DeepSeek-V4-Flash поддерживают три режима работы, регулирующих глубину рассуждений: Non-think для быстрых ответов, Think High для логического анализа и Think Max для максимального усилия рассуждений. Также DeepSeek-AI выпустила версии DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark, которые включают модуль спекулятивного декодирования DSpark для ускорения инференса.

По заявлениям DeepSeek-AI, DeepSeek-V4-Pro-Max (максимальный режим рассуждений V4-Pro) показывает конкурентоспособные результаты в бенчмарках кодирования и сокращает разрыв с закрытыми моделями в задачах рассуждений и агентов. Модели доступны для загрузки на Hugging Face.

Экономия памяти и вычислительных ресурсов, достигнутая в DeepSeek-V4, — это важный шаг к созданию более сложных и автономных AI-агентов. Она позволяет им выполнять продолжительные задачи без потери контекста и перегрузки оборудования, что было одной из главных проблем в работе с миллионными окнами токенов.

DeepSeek-V4: миллион токенов контекста — в 10 раз экономнее для памяти daily

Дополнительные источники

Источники

Оценить материал