DeepSeek-R1-0528: Новые возможности рассуждения и функции

Hero illustration: DeepSeek-R1-0528: Новые возможности рассуждения и функции.

Стоит читать если: вы используете модели DeepSeek для задач, требующих сложных рассуждений, или заинтересованы в моделях с поддержкой JSON-вывода и вызова функций. Можно пропустить если: вы не работаете с моделями DeepSeek или ваши задачи не связаны с автоматизацией логических операций.

Детали обновления DeepSeek-R1-0528

Модель deepseek-reasoner была обновлена до версии R1-0528, демонстрируя значительные улучшения в задачах, требующих рассуждения.

Улучшение рассуждений по бенчмаркам. DeepSeek сообщает о заметном росте производительности в нескольких бенчмарках (Pass@1):

AIME 2025: с 70.0 до 87.5 (+17.5)
GPQA: с 71.5 до 81.0 (+9.5)
LCB_v6: с 63.5 до 73.3 (+9.8)
Aider: с 57.0 до 71.6 (+14.6)

Эти цифры указывают на то, что модель deepseek-r1 стала более способной обрабатывать сложные логические и математические задачи, а также задачи кодирования и критического мышления.

Оптимизация для фронтенд-разработки. В рамках обновления заявлена оптимизация разработки внешнего интерфейса, что выражается в улучшении эстетики генерируемых веб-страниц и игр. Это может быть полезно для инженеров, использующих модели для прототипирования UI или генерации кода пользовательских интерфейсов.

Снижение галлюцинаций. По сравнению с предыдущей версией R1, количество галлюцинаций в DeepSeek-R1-0528 было уменьшено, что повышает надежность генерируемого контента.

Поддержка вывода JSON и вызова функций. Добавлена поддержка вывода в формате JSON и вызова функций (tool use), что критично для интеграции моделей в автоматизированные пайплайны и построения агентов. Производительность этой функциональности по Tau-bench составляет 53.5 (Airline) и 63.9 (Retail).

Веса модели в открытом доступе. Веса модели DeepSeek-R1-0528 доступны для скачивания на Hugging Face, что позволяет разработчикам использовать и дорабатывать её локально.

Что важно знать

Комплексные задачи рассуждения могут потреблять больше токенов. При планировании рабочих процессов с новой моделью следует учитывать потенциальное увеличение расходов на токены.

Ссылки:

Что это значит

Улучшенные возможности рассуждения и нативная поддержка вызова функций с выводом JSON делают DeepSeek-R1-0528 более привлекательным инструментом для создания автономных агентов и систем, где требуется не только генерация текста, но и взаимодействие со сложными API или внешними инструментами. Это также может снизить накладные расходы на парсинг и валидацию ответов модели, упрощая разработку.

DeepSeek-R1-0528: Новые возможности рассуждения и функции daily

Детали обновления DeepSeek-R1-0528

Что важно знать

Что это значит

Источники

Оценить материал