DeepSeek-V3.1: Гибридная архитектура объединяет мысль и скорость

Hero illustration: DeepSeek-V3.1: Гибридная архитектура объединяет мысль и скорость.

Стоит читать если: вы используете DeepSeek для разработки агентов, работаете с инструментами или ищете модель с оптимизированным процессом рассуждений. Можно пропустить если: вы не используете DeepSeek и изменения в ценах или архитектуре не влияют на ваши текущие проекты.

Гибридная архитектура DeepSeek-V3.1: объединяя мысль и скорость

DeepSeek-V3.1 представляет собой унифицированную модель, которая теперь поддерживает два режима, ранее представленные как отдельные:

deepseek-chat соответствует «недумающему» режиму (non-thinking mode) deepseek-v3-1. Это режим для быстрых и прямых ответов.
deepseek-reasoner соответствует «думающему» режиму (thinking mode) deepseek-v3-1. В этом режиме модель способна к более глубоким рассуждениям, что критично для сложных задач.

Это не просто обновление отдельных моделей, а изменение подхода: одна модель управляет обоими режимами, динамически переключаясь между ними.

Повышение эффективности рассуждений и возможностей агентов. Режим deepseek-v3-1-Think теперь отвечает быстрее по сравнению с DeepSeek-R1-0528. Послетренировочная оптимизация значительно улучшила использование инструментов и задачи, связанные с интеллектуальными агентами. Модель демонстрирует следующие результаты в бенчмарках:

SWE-bench Verified: 66.0
SWE-bench Multilingual: 54.5
Terminal-bench: 31.3

Оба режима (thinking и non-thinking) поддерживают контекстное окно в 128K токенов.

API и инструменты. deepseek-v3-1 теперь поддерживает формат Anthropic API, что упрощает миграцию и интеграцию для разработчиков, уже работающих с этим стандартом. Также в бета-версии API доступна поддержка строгого вызова функций (Strict Function Calling).

Модель deepseek-v3-1-base содержит 840 млрд токенов и прошла дополнительную предварительную тренировку для расширения длинного контекста поверх V3. Обновлены токенизатор и шаблон чата.

Цены. Новые тарифы на использование DeepSeek-V3.1 вступают в силу с 5 сентября 2025 года, 16:00 (UTC). До этой даты действуют текущие тарифы. Подробности о ценах.

Ссылки:

Что это значит

Объединение «думающего» и «недумающего» режимов в единую модель deepseek-v3-1 может упростить логику работы с API и снять часть решений о выборе модели на этапе инференса. Разработчикам, работающим с агентами, стоит изучить обновленные возможности и протестировать Strict Function Calling. Также важно своевременно учесть изменения в тарифах, которые вступят в силу в сентябре.

DeepSeek-V3.1: Гибридная архитектура объединяет мысль и скорость daily

Гибридная архитектура DeepSeek-V3.1: объединяя мысль и скорость

Что это значит

Источники

Оценить материал