Стоит читать если: вы работаете с моделями для решения сложных задач, требующих рассуждений, и интересуетесь открытыми альтернативами с конкурентной производительностью, а также подходами к обучению без SFT. Можно пропустить если: вас не интересуют детали архитектуры моделей и вы не используете DeepSeek в своих проектах.
Модели рассуждений DeepSeek-R1 и DeepSeek-R1-Zero
DeepSeek представила новые модели рассуждений: deepseek-r1 и deepseek-r1-zero. Первая, DeepSeek-R1, демонстрирует производительность, сравнимую с OpenAI-o1, в ключевых областях: математика, кодирование и общие задачи на рассуждение. DeepSeek-R1-Zero является экспериментальной моделью, обученной полностью с использованием крупномасштабного обучения с подкреплением (RL) без предварительного этапа тонкой настройки с учителем (SFT).
Доступность через API и Hugging Face. Обе модели доступны для использования через API DeepSeek под общим названием deepseek-reasoner, а также для локального развертывания через Hugging Face. Это обеспечивает гибкость как для облачных, так и для локальных рабочих процессов.
Лицензия MIT. DeepSeek-R1 и сопутствующий технический отчёт полностью открыты и выпущены под лицензией MIT. Это позволяет свободное распространение и коммерциализацию, что важно для исследовательского сообщества и корпоративных пользователей.
Ценообразование API. Использование DeepSeek-R1 через API тарифицируется по цене $0.14 за миллион входных токенов при попадании в кэш, $0.55 за миллион входных токенов при промахе кэша и $2.19 за миллион выходных токенов.
Особенности обучения. DeepSeek-R1-Zero, обученная исключительно на RL, показала удивительные способности к самопроверке и генерации длинных цепочек рассуждений. Для DeepSeek-R1 этот подход был дополнен «холодным стартом» на размеченных данных перед RL, чтобы нивелировать проблемы R1-Zero, такие как зацикливание и смешивание языков.
Новый чат. Запущен веб-сайт и API, доступен чат DeepThink на chat.deepseek.com.
Анонс DeepSeek-R1, API Docs, DeepSeek-R1 на Hugging Face, DeepSeek-R1-Zero на Hugging Face
Дистиллированные версии для малых моделей
DeepSeek также выпустила шесть небольших дистиллированных моделей на базе DeepSeek-R1. Эти модели созданы с использованием данных, сгенерированных большой DeepSeek-R1, что позволяет перенести её паттерны рассуждений в более компактные версии.
Шесть новых моделей. В число дистиллированных версий входят модели на основе Llama и Qwen с параметрами 1.5B, 7B, 8B, 14B, 32B и 70B. Это DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Qwen-14B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Llama-70B, DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-1.5B. Производительность. Как утверждается, модели DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B демонстрируют производительность, сравнимую с OpenAI-o1-mini, что делает их привлекательными для задач, где важны скорость и экономия ресурсов. Преимущества дистилляции. Подход с дистилляцией позволяет создавать эффективные небольшие модели, которые наследуют сложные рассуждающие способности от своих более крупных «учителей», вместо того чтобы пытаться обучать эти способности с нуля на малых моделях. DeepSeek-R1-Distill-Qwen-32B на Hugging Face, DeepSeek-R1-Distill-Qwen-14B на Hugging Face, DeepSeek-R1-Distill-Qwen-7B на Hugging Face, DeepSeek-R1-Distill-Llama-70B на Hugging Face, DeepSeek-R1-Distill-Llama-8B на Hugging Face, DeepSeek-R1-Distill-Qwen-1.5B на Hugging Face
Что это значит
Выпуск DeepSeek-R1 и DeepSeek-R1-Zero, наряду с дистиллированными моделями, демонстрирует две важные тенденции: стремление к открытости в лице лицензии MIT и агрессивный эксперимент с методами обучения, такими как крупномасштабное RL без SFT. Для инженеров это означает расширение выбора моделей для задач рассуждений, особенно для тех, кто ищет открытые и настраиваемые решения с подтвержденной конкурентоспособной производительностью. Важно отслеживать, как DeepSeek будет развивать этот стек и какие следующие итерации принесут дальнейшие улучшения.