DeepSeek-R1: Новое поколение моделей рассуждений и открытый исходный код

Hero illustration: DeepSeek-R1: Новое поколение моделей рассуждений и открытый исходный код.

Стоит читать если: вы работаете с моделями для решения сложных задач, требующих рассуждений, и интересуетесь открытыми альтернативами с конкурентной производительностью, а также подходами к обучению без SFT. Можно пропустить если: вас не интересуют детали архитектуры моделей и вы не используете DeepSeek в своих проектах.

Модели рассуждений DeepSeek-R1 и DeepSeek-R1-Zero

DeepSeek представила новые модели рассуждений: deepseek-r1 и deepseek-r1-zero. Первая, DeepSeek-R1, демонстрирует производительность, сравнимую с OpenAI-o1, в ключевых областях: математика, кодирование и общие задачи на рассуждение. DeepSeek-R1-Zero является экспериментальной моделью, обученной полностью с использованием крупномасштабного обучения с подкреплением (RL) без предварительного этапа тонкой настройки с учителем (SFT).

Доступность через API и Hugging Face. Обе модели доступны для использования через API DeepSeek под общим названием deepseek-reasoner, а также для локального развертывания через Hugging Face. Это обеспечивает гибкость как для облачных, так и для локальных рабочих процессов. Лицензия MIT. DeepSeek-R1 и сопутствующий технический отчёт полностью открыты и выпущены под лицензией MIT. Это позволяет свободное распространение и коммерциализацию, что важно для исследовательского сообщества и корпоративных пользователей. Ценообразование API. Использование DeepSeek-R1 через API тарифицируется по цене $0.14 за миллион входных токенов при попадании в кэш, $0.55 за миллион входных токенов при промахе кэша и $2.19 за миллион выходных токенов. Особенности обучения. DeepSeek-R1-Zero, обученная исключительно на RL, показала удивительные способности к самопроверке и генерации длинных цепочек рассуждений. Для DeepSeek-R1 этот подход был дополнен «холодным стартом» на размеченных данных перед RL, чтобы нивелировать проблемы R1-Zero, такие как зацикливание и смешивание языков. Новый чат. Запущен веб-сайт и API, доступен чат DeepThink на chat.deepseek.com. Анонс DeepSeek-R1, API Docs, DeepSeek-R1 на Hugging Face, DeepSeek-R1-Zero на Hugging Face

Дистиллированные версии для малых моделей

DeepSeek также выпустила шесть небольших дистиллированных моделей на базе DeepSeek-R1. Эти модели созданы с использованием данных, сгенерированных большой DeepSeek-R1, что позволяет перенести её паттерны рассуждений в более компактные версии.

Шесть новых моделей. В число дистиллированных версий входят модели на основе Llama и Qwen с параметрами 1.5B, 7B, 8B, 14B, 32B и 70B. Это DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Qwen-14B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Llama-70B, DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-1.5B. Производительность. Как утверждается, модели DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B демонстрируют производительность, сравнимую с OpenAI-o1-mini, что делает их привлекательными для задач, где важны скорость и экономия ресурсов. Преимущества дистилляции. Подход с дистилляцией позволяет создавать эффективные небольшие модели, которые наследуют сложные рассуждающие способности от своих более крупных «учителей», вместо того чтобы пытаться обучать эти способности с нуля на малых моделях. DeepSeek-R1-Distill-Qwen-32B на Hugging Face, DeepSeek-R1-Distill-Qwen-14B на Hugging Face, DeepSeek-R1-Distill-Qwen-7B на Hugging Face, DeepSeek-R1-Distill-Llama-70B на Hugging Face, DeepSeek-R1-Distill-Llama-8B на Hugging Face, DeepSeek-R1-Distill-Qwen-1.5B на Hugging Face

Что это значит

Выпуск DeepSeek-R1 и DeepSeek-R1-Zero, наряду с дистиллированными моделями, демонстрирует две важные тенденции: стремление к открытости в лице лицензии MIT и агрессивный эксперимент с методами обучения, такими как крупномасштабное RL без SFT. Для инженеров это означает расширение выбора моделей для задач рассуждений, особенно для тех, кто ищет открытые и настраиваемые решения с подтвержденной конкурентоспособной производительностью. Важно отслеживать, как DeepSeek будет развивать этот стек и какие следующие итерации принесут дальнейшие улучшения.

DeepSeek-R1: Новое поколение моделей рассуждений и открытый исходный код daily

Модели рассуждений DeepSeek-R1 и DeepSeek-R1-Zero

Дистиллированные версии для малых моделей

Что это значит

Источники

Оценить материал