AI News Watcher
Saturday, Jun 27, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 27, 2026 · 2 min read · DeepSeek ← Back to feed

DeepSeek-V4: миллион токенов контекста — в 10 раз экономнее для памяти daily

Новая гибридная архитектура и оптимизатор Muon позволяют моделям работать с агентами на миллион токенов без перегрузки памяти.

DeepSeek-V4: миллион токенов контекста — в 10 раз экономнее для памяти
Редакция · Daily briefing

Миллион токенов контекста в языковой модели звучит впечатляюще, но на практике такой объём часто приводит к перегрузке памяти и замедлению работы. DeepSeek-AI утверждает, что решила эту проблему в своей новой серии моделей DeepSeek-V4-Pro и DeepSeek-V4-Flash, сделав длинный контекст по-настоящему пригодным для сложных AI-агентов.

DeepSeek-AI выпустила две модели: DeepSeek-V4-Pro (1.6 триллиона общих параметров, 49 миллиардов активных) и DeepSeek-V4-Flash (284 миллиарда общих параметров, 13 миллиардов активных). Обе поддерживают контекст длиной до одного миллиона токенов. Главное достижение — эффективность: для контекста в 1 миллион токенов DeepSeek-V4-Pro требует всего 27% операций с плавающей точкой (FLOPs) на токен и 10% KV-кэша (памяти для хранения ключей и значений) по сравнению с DeepSeek-V3.2. Это делает модели DeepSeek-V4 подходящими для долгих задач AI-агентов, где контекст постоянно растёт.

Эффективность достигается за счёт нескольких ключевых архитектурных улучшений и оптимизаций:

Модели были предварительно обучены на более чем 32 триллионах высококачественных токенов. DeepSeek-V4-Pro и DeepSeek-V4-Flash поддерживают три режима работы, регулирующих глубину рассуждений: Non-think для быстрых ответов, Think High для логического анализа и Think Max для максимального усилия рассуждений. Также DeepSeek-AI выпустила версии DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark, которые включают модуль спекулятивного декодирования DSpark для ускорения инференса.

По заявлениям DeepSeek-AI, DeepSeek-V4-Pro-Max (максимальный режим рассуждений V4-Pro) показывает конкурентоспособные результаты в бенчмарках кодирования и сокращает разрыв с закрытыми моделями в задачах рассуждений и агентов. Модели доступны для загрузки на Hugging Face.

Экономия памяти и вычислительных ресурсов, достигнутая в DeepSeek-V4, — это важный шаг к созданию более сложных и автономных AI-агентов. Она позволяет им выполнять продолжительные задачи без потери контекста и перегрузки оборудования, что было одной из главных проблем в работе с миллионными окнами токенов.

Дополнительные источники

  1. deepseek-ai/DeepSpec
  2. DeepSeek-V4 Hugging Face Collection
  3. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence (Paper Abstract)
  4. huggingface.co
  5. deepinfra.com
  6. anthropic.com

Источники

  1. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark docs
  2. https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark docs
→ Опубликовано в Telegram: @agentic_ai_news/592