Cerebras: две модели уходят в запас, время миграции

Hero illustration: Cerebras: две модели уходят в запас, время миграции.

О чём эта новость

llama3.1-8b и qwen-3-235b-a22b-instruct-2507 будут полностью выведены из эксплуатации 27 мая 2026 года.подробнее →
Для устаревших моделей Cerebras рекомендует миграцию на GPT OSS 120B или Z.ai GLM 4.7.подробнее →
Управление функцией 'Reasoning' для zai-glm-4.7 изменится: disable_reasoning заменяется на reasoning_effort="none".подробнее →
'Строгий режим' в Cerebras Inference API обеспечивает строгое соответствие JSON-схеме для структурированных выводов.подробнее →

Компания Cerebras объявила о предстоящем прекращении поддержки двух моделей — llama3.1-8b и qwen-3-235b-a22b-instruct-2507, установив крайний срок их эксплуатации 27 мая 2026 года. Это решение подчеркивает постоянное стремление Cerebras к оптимизации платформы и фокусировке на более производительных и актуальных решениях. Разработчикам, использующим эти модели, предлагается начать процесс миграции на более современные альтернативы, чтобы обеспечить бесперебойную работу своих приложений и использовать преимущества последних инноваций в области больших языковых моделей.

Объявление о прекращении поддержки моделей

Компания Cerebras объявила о предстоящем прекращении поддержки двух своих больших языковых моделей: llama3.1-8b и qwen-3-235b-a22b-instruct-2507. Эти модели будут полностью выведены из эксплуатации 27 мая 2026 года. Это означает, что разработчикам, использующим эти конкретные версии, предоставляется значительный срок для планирования и осуществления миграции своих приложений на более современные и производительные альтернативы. Решение о деприкации моделей является частью постоянной стратегии Cerebras по обновлению и оптимизации предлагаемого набора инструментов, что обеспечивает пользователям доступ к самым актуальным и эффективным технологиям в быстро развивающейся области искусственного интеллекта. Важно отметить, что в предоставленных источниках не указаны конкретные причины прекращения поддержки именно этих двух моделей, что часто бывает связано с появлением более совершенных архитектур, улучшением общей производительности платформы или изменением стратегических фокусов компании.

Такие объявления не являются изолированными событиями, а отражают общую тенденцию активного управления жизненным циклом моделей на платформе Cerebras. В течение последних месяцев компания последовательно выводила из эксплуатации устаревшие версии, предлагая взамен более мощные и гибкие альтернативы. Например, 24 марта 2026 года было объявлено об устаревании параметра disable_reasoning для модели zai-glm-4.7, который будет полностью удален 21 июля 2026 года. Пользователям zai-glm-4.7 теперь рекомендуется использовать reasoning_effort="none" для отключения функции рассуждений. Это изменение, как и другие деприкации, требует от разработчиков адаптации своих кодовых баз для поддержания совместимости и использования новейших функций.

Среди других моделей, поддержка которых была прекращена ранее, значатся qwen-3-32b и llama-3.3-70b, выведенные из эксплуатации 16 февраля 2026 года, с рекомендованной миграцией на GPT OSS 120B. До этого, 20 января 2026 года, модель zai-glm-4.6 была заменена на Z.ai GLM 4.7, предлагая пользователям более актуальный и мощный вариант. Список деприкаций продолжается и в 2025 году: 14 ноября 2025 года была деприцирована qwen-3-235b-a22b-thinking-2507, с рекомендацией перехода на GPT OSS 120B; 5 ноября 2025 года — qwen-3-coder-480b, для которой рекомендовалась Z.ai GLM 4.7. Модели llama-4-scout-17b-16e-instruct и llama-4-maverick-17b-128e-instruct были выведены из эксплуатации 3 ноября и 15 октября 2025 года соответственно, с рекомендациями по миграции на GPT OSS 120B или Llama 3.3 70B. Ранее, 12 августа 2025 года, была деприцирована deepseek-r1-distill-llama-70b в пользу Qwen 3 32B, а 29 июля 2025 года — qwen-3-235b-a22b с рекомендацией перехода на Qwen 3 235B Instruct или Qwen 3 235B Thinking. Наконец, 17 января 2025 года была деприцирована llama3.1-70b, для которой рекомендовался переход на llama-3.3-70b. Этот обширный и непрерывный процесс обновления подчеркивает стремление Cerebras поддерживать актуальность и производительность своей платформы, что требует от пользователей готовности к регулярной адаптации и использованию новейших предложений.

Особенности миграции: управление функцией Reasoning

Одним из ключевых аспектов, требующих внимания при миграции на новые модели Cerebras, является управление функцией 'Reasoning' (рассуждения). Эта функция позволяет моделям генерировать промежуточные "мыслительные" токены перед выдачей окончательного ответа, что значительно улучшает их способности к решению сложных задач и дает разработчикам возможность отслеживать ход мыслей модели. Функция рассуждений в настоящее время доступна для моделей OpenAI GPT OSS (gpt-oss-120b) и Z.ai GLM (zai-glm-4.7), однако управление ею имеет свои нюансы в зависимости от семейства моделей.

Важное изменение касается параметра disable_reasoning для модели zai-glm-4.7, который будет полностью выведен из эксплуатации после 21 июля 2026 года. Разработчикам, использующим этот параметр для отключения рассуждений, необходимо перейти на использование reasoning_effort="none". Рассуждения по умолчанию включены в zai-glm-4.7, и reasoning_effort="none" предоставляет новый стандартизированный способ управления этим поведением. Для модели GPT-OSS 120B параметр reasoning_effort позволяет регулировать глубину рассуждений, предлагая значения "low" (минимальные рассуждения, быстрый ответ), "medium" (умеренные рассуждения, по умолчанию) и "high" (обширные рассуждения, более тщательный анализ).

Кроме того, Cerebras предоставляет различные форматы вывода рассуждений через параметр reasoning_format, что существенно влияет на то, как текст рассуждений представлен в ответе модели. Доступны следующие форматы:

parsed: Рассуждения возвращаются в отдельном поле reasoning, а logprobs разделяются на reasoning_logprobs. Этот формат удобен для программной обработки.
raw: Текст рассуждений добавляется в поле content перед основным ответом. Для моделей GLM и Qwen рассуждения заключаются в теги <think>...</think>, тогда как GPT-OSS просто объединяет их без разделителей. Важно отметить, что raw формат несовместим с форматами вывода json_object или json_schema; в таких случаях модели, использующие raw по умолчанию, автоматически переключаются на hidden.
hidden: Текст рассуждений и соответствующие logprobs полностью отбрасываются из ответа. При этом токены рассуждений все равно генерируются и учитываются в общем количестве токенов завершения.
none: Модель использует свое поведение рассуждений по умолчанию.

Понимание этих форматов и умение их настраивать критически важны для обеспечения корректной работы приложений после миграции, особенно для тех, где анализ процесса рассуждений модели играет важную роль.

Особенности миграции: структурированные выводы и "строгий режим"

При переходе на новые модели Cerebras разработчикам необходимо учитывать изменения, касающиеся структурированных выводов и "строгого режима" (strict mode) в Cerebras Inference API. Структурированные выводы — это функция, которая обеспечивает последовательный вывод данных в формате JSON, что критически важно для приложений, программно обрабатывающих ответы, сгенерированные ИИ. Она гарантирует снижение изменчивости, безопасность типов и упрощает парсинг и интеграцию. В свою очередь, "строгий режим", или принудительное декодирование (constrained decoding), является важным механизмом, который гарантирует, что вывод модели будет точно соответствовать предоставленной JSON-схеме.

При включении параметра strict: true в конфигурации response_format, Cerebras задействует механизм принудительного декодирования. Это обеспечивает соблюдение схемы на уровне токенов, что делает генерацию невалидных или несоответствующих схеме ответов невозможной. Без "строгого режима" могут возникать проблемы, такие как некорректный JSON, отсутствие обязательных полей, неверные типы данных или появление дополнительных полей, не определенных в схеме. Использование "строгого режима" устраняет необходимость в дополнительной обработке ошибок, связанных с нарушением схемы, обеспечивая гарантированно валидный JSON-ответ с соблюдением всех спецификаций.

Для тех, чьи приложения используют "строгий режим" или параметр response_format, существуют особенности миграции, которые нужно учесть. Устаревшее поведение "строгого режима" (принудительного декодирования) на модели llama-3.3-70b может незначительно отличаться от того, как оно реализовано в текущих моделях. Поэтому крайне важно ознакомиться с документацией по структурированным выводам и использованию инструментов перед миграцией запросов, которые применяют response_format в "строгом режиме". При использовании "строгого режима" также обязательным требованием является установка additionalProperties: false для каждого объекта в вашей JSON-схеме, что предотвращает добавление моделью неуказанных свойств.

Обзор и характеристики рекомендуемых моделей

Для разработчиков, осуществляющих миграцию, Cerebras предлагает две мощные целевые модели: GPT OSS 120B и Z.ai GLM 4.7. Каждая из них обладает уникальными преимуществами, предназначенными для различных сценариев использования. Модель GPT OSS 120B выделяется своей эффективностью в задачах, требующих рассуждений в областях науки, математики и программирования. Она идеально подходит для таких приложений, как помощь в написании кода в реальном времени, обработка больших документов для вопросов и ответов, суммаризация, а также для рабочих процессов агентских исследований и регулируемых локальных нагрузок. Ее способность к быстрому и точному анализу делает ее универсальным инструментом для широкого круга задач.

В свою очередь, Z.ai GLM 4.7 демонстрирует высокую производительность в кодировании в сочетании с передовыми возможностями рассуждений. Эта модель отличается превосходным использованием инструментов и улучшенной производительностью в реальных агентских приложениях, ориентированных на кодирование. Она разработана для ситуаций, где требуется глубокое понимание контекста и сложная логика для генерации кода или решения проблем. Согласно анализу Artificial Analysis, Z.ai GLM 4.7 показывает впечатляющие результаты: она набирает 42 балла по Индексу интеллекта Artificial Analysis, что значительно выше среднего показателя в 30 баллов среди сопоставимых моделей.

Помимо высокого интеллекта, Z.ai GLM 4.7 также отличается заметной скоростью, генерируя 102.6 выходных токена в секунду, что существенно превышает среднюю скорость в 59 токенов. Однако стоит отметить, что модель является довольно "многословной", генерируя 170 миллионов выходных токенов в рамках оценки Индекса интеллекта по сравнению со средними 42 миллионами. Что касается стоимости, входные токены оцениваются в $0.60 USD за 1 миллион (что несколько дороже среднего показателя в $0.40), а выходные токены — в $2.20 USD за 1 миллион (также несколько дороже среднего показателя в $1.25). Тем не менее, расширенные возможности рассуждений и высокая производительность могут оправдать эти затраты для сложных и критически важных приложений.

Что это значит

Предстоящее прекращение поддержки моделей llama3.1-8b и qwen-3-235b-a22b-instruct-2507 со стороны Cerebras подчеркивает необходимость для разработчиков проактивно подходить к обновлению своих систем. Переход на рекомендованные альтернативы, такие как GPT OSS 120B и Z.ai GLM 4.7, позволит не только обеспечить непрерывность работы приложений, но и получить доступ к более совершенным возможностям в области рассуждений, кодирования и структурированных выводов. Внимательное изучение новой документации и адаптация к изменениям в управлении параметрами, такими как reasoning_effort и strict mode, станут ключом к успешной миграции и дальнейшему развитию инновационных решений на платформе Cerebras.

Cerebras: две модели уходят в запас, время миграции daily

О чём эта новость

Объявление о прекращении поддержки моделей

Рекомендуемые пути миграции

Особенности миграции: управление функцией Reasoning

Особенности миграции: структурированные выводы и "строгий режим"

Обзор и характеристики рекомендуемых моделей

Что это значит

Основная статья

Дополнительные источники

Оценить материал