AI News Watcher
Wednesday, May 27, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · May 27, 2026 · 9 min read · Cerebras ← Back to feed

Cerebras: две модели уходят в запас, время миграции daily

Cerebras прекращает поддержку моделей llama3.1-8b и qwen-3-235b-a22b-instruct-2507 с 27 мая 2026 года, призывая пользователей к переходу на рекомендованные альтернативы.

Hero illustration: Cerebras: две модели уходят в запас, время миграции.

Редакция · Daily briefing

Компания Cerebras объявила о предстоящем прекращении поддержки двух моделей — llama3.1-8b и qwen-3-235b-a22b-instruct-2507, установив крайний срок их эксплуатации 27 мая 2026 года. Это решение подчеркивает постоянное стремление Cerebras к оптимизации платформы и фокусировке на более производительных и актуальных решениях. Разработчикам, использующим эти модели, предлагается начать процесс миграции на более современные альтернативы, чтобы обеспечить бесперебойную работу своих приложений и использовать преимущества последних инноваций в области больших языковых моделей.

Объявление о прекращении поддержки моделей

Компания Cerebras объявила о предстоящем прекращении поддержки двух своих больших языковых моделей: llama3.1-8b и qwen-3-235b-a22b-instruct-2507. Эти модели будут полностью выведены из эксплуатации 27 мая 2026 года. Это означает, что разработчикам, использующим эти конкретные версии, предоставляется значительный срок для планирования и осуществления миграции своих приложений на более современные и производительные альтернативы. Решение о деприкации моделей является частью постоянной стратегии Cerebras по обновлению и оптимизации предлагаемого набора инструментов, что обеспечивает пользователям доступ к самым актуальным и эффективным технологиям в быстро развивающейся области искусственного интеллекта. Важно отметить, что в предоставленных источниках не указаны конкретные причины прекращения поддержки именно этих двух моделей, что часто бывает связано с появлением более совершенных архитектур, улучшением общей производительности платформы или изменением стратегических фокусов компании.

Такие объявления не являются изолированными событиями, а отражают общую тенденцию активного управления жизненным циклом моделей на платформе Cerebras. В течение последних месяцев компания последовательно выводила из эксплуатации устаревшие версии, предлагая взамен более мощные и гибкие альтернативы. Например, 24 марта 2026 года было объявлено об устаревании параметра disable_reasoning для модели zai-glm-4.7, который будет полностью удален 21 июля 2026 года. Пользователям zai-glm-4.7 теперь рекомендуется использовать reasoning_effort="none" для отключения функции рассуждений. Это изменение, как и другие деприкации, требует от разработчиков адаптации своих кодовых баз для поддержания совместимости и использования новейших функций.

Среди других моделей, поддержка которых была прекращена ранее, значатся qwen-3-32b и llama-3.3-70b, выведенные из эксплуатации 16 февраля 2026 года, с рекомендованной миграцией на GPT OSS 120B. До этого, 20 января 2026 года, модель zai-glm-4.6 была заменена на Z.ai GLM 4.7, предлагая пользователям более актуальный и мощный вариант. Список деприкаций продолжается и в 2025 году: 14 ноября 2025 года была деприцирована qwen-3-235b-a22b-thinking-2507, с рекомендацией перехода на GPT OSS 120B; 5 ноября 2025 года — qwen-3-coder-480b, для которой рекомендовалась Z.ai GLM 4.7. Модели llama-4-scout-17b-16e-instruct и llama-4-maverick-17b-128e-instruct были выведены из эксплуатации 3 ноября и 15 октября 2025 года соответственно, с рекомендациями по миграции на GPT OSS 120B или Llama 3.3 70B. Ранее, 12 августа 2025 года, была деприцирована deepseek-r1-distill-llama-70b в пользу Qwen 3 32B, а 29 июля 2025 года — qwen-3-235b-a22b с рекомендацией перехода на Qwen 3 235B Instruct или Qwen 3 235B Thinking. Наконец, 17 января 2025 года была деприцирована llama3.1-70b, для которой рекомендовался переход на llama-3.3-70b. Этот обширный и непрерывный процесс обновления подчеркивает стремление Cerebras поддерживать актуальность и производительность своей платформы, что требует от пользователей готовности к регулярной адаптации и использованию новейших предложений.

Рекомендуемые пути миграции

В свете предстоящего прекращения поддержки моделей Cerebras активно направляет разработчиков на переход к более совершенным и производительным альтернативам. Хотя прямые рекомендации для llama3.1-8b и qwen-3-235b-a22b-instruct-2507 не указаны в явном виде в объявлении о деприкации, общая стратегия Cerebras указывает на две основные целевые модели для миграции: GPT OSS 120B и Z.ai GLM 4.7. Эти модели предлагаются в качестве преемников для ряда других недавно устаревших решений, что делает их наиболее вероятным выбором для пользователей, которым необходимо обновить свои приложения. Например, для qwen-3-32b и llama-3.3-70b рекомендуется миграция на GPT OSS 120B, а для zai-glm-4.6 — на Z.ai GLM 4.7.

Cerebras подчеркивает важность тщательной подготовки к миграции. Пользователям, использующим устаревшие модели, следует внимательно изучить документацию по новым моделям, чтобы понять их особенности и потенциальные изменения в поведении. Особое внимание следует уделить функциям, которые могли измениться или быть реализованы по-новому. Например, для модели Qwen 3 32B, где функция рассуждений (reasoning) была включена по умолчанию, при переходе на GPT OSS 120B потребуется настроить этот параметр через reasoning_effort. Кроме того, устаревшее поведение "строгого режима" (strict mode) или принудительного декодирования (constrained decoding) на llama-3.3-70b отличается от текущих моделей, что требует изучения документации по структурированным выводам и использованию инструментов. К сожалению, источники не предоставляют информации о возможном влиянии миграции на стоимость для пользователей или о наличии специальных программ поддержки, что является важным аспектом для многих разработчиков.

Особенности миграции: управление функцией Reasoning

Одним из ключевых аспектов, требующих внимания при миграции на новые модели Cerebras, является управление функцией 'Reasoning' (рассуждения). Эта функция позволяет моделям генерировать промежуточные "мыслительные" токены перед выдачей окончательного ответа, что значительно улучшает их способности к решению сложных задач и дает разработчикам возможность отслеживать ход мыслей модели. Функция рассуждений в настоящее время доступна для моделей OpenAI GPT OSS (gpt-oss-120b) и Z.ai GLM (zai-glm-4.7), однако управление ею имеет свои нюансы в зависимости от семейства моделей.

Важное изменение касается параметра disable_reasoning для модели zai-glm-4.7, который будет полностью выведен из эксплуатации после 21 июля 2026 года. Разработчикам, использующим этот параметр для отключения рассуждений, необходимо перейти на использование reasoning_effort="none". Рассуждения по умолчанию включены в zai-glm-4.7, и reasoning_effort="none" предоставляет новый стандартизированный способ управления этим поведением. Для модели GPT-OSS 120B параметр reasoning_effort позволяет регулировать глубину рассуждений, предлагая значения "low" (минимальные рассуждения, быстрый ответ), "medium" (умеренные рассуждения, по умолчанию) и "high" (обширные рассуждения, более тщательный анализ).

Кроме того, Cerebras предоставляет различные форматы вывода рассуждений через параметр reasoning_format, что существенно влияет на то, как текст рассуждений представлен в ответе модели. Доступны следующие форматы:

Понимание этих форматов и умение их настраивать критически важны для обеспечения корректной работы приложений после миграции, особенно для тех, где анализ процесса рассуждений модели играет важную роль.

Особенности миграции: структурированные выводы и "строгий режим"

При переходе на новые модели Cerebras разработчикам необходимо учитывать изменения, касающиеся структурированных выводов и "строгого режима" (strict mode) в Cerebras Inference API. Структурированные выводы — это функция, которая обеспечивает последовательный вывод данных в формате JSON, что критически важно для приложений, программно обрабатывающих ответы, сгенерированные ИИ. Она гарантирует снижение изменчивости, безопасность типов и упрощает парсинг и интеграцию. В свою очередь, "строгий режим", или принудительное декодирование (constrained decoding), является важным механизмом, который гарантирует, что вывод модели будет точно соответствовать предоставленной JSON-схеме.

При включении параметра strict: true в конфигурации response_format, Cerebras задействует механизм принудительного декодирования. Это обеспечивает соблюдение схемы на уровне токенов, что делает генерацию невалидных или несоответствующих схеме ответов невозможной. Без "строгого режима" могут возникать проблемы, такие как некорректный JSON, отсутствие обязательных полей, неверные типы данных или появление дополнительных полей, не определенных в схеме. Использование "строгого режима" устраняет необходимость в дополнительной обработке ошибок, связанных с нарушением схемы, обеспечивая гарантированно валидный JSON-ответ с соблюдением всех спецификаций.

Для тех, чьи приложения используют "строгий режим" или параметр response_format, существуют особенности миграции, которые нужно учесть. Устаревшее поведение "строгого режима" (принудительного декодирования) на модели llama-3.3-70b может незначительно отличаться от того, как оно реализовано в текущих моделях. Поэтому крайне важно ознакомиться с документацией по структурированным выводам и использованию инструментов перед миграцией запросов, которые применяют response_format в "строгом режиме". При использовании "строгого режима" также обязательным требованием является установка additionalProperties: false для каждого объекта в вашей JSON-схеме, что предотвращает добавление моделью неуказанных свойств.

Обзор и характеристики рекомендуемых моделей

Для разработчиков, осуществляющих миграцию, Cerebras предлагает две мощные целевые модели: GPT OSS 120B и Z.ai GLM 4.7. Каждая из них обладает уникальными преимуществами, предназначенными для различных сценариев использования. Модель GPT OSS 120B выделяется своей эффективностью в задачах, требующих рассуждений в областях науки, математики и программирования. Она идеально подходит для таких приложений, как помощь в написании кода в реальном времени, обработка больших документов для вопросов и ответов, суммаризация, а также для рабочих процессов агентских исследований и регулируемых локальных нагрузок. Ее способность к быстрому и точному анализу делает ее универсальным инструментом для широкого круга задач.

В свою очередь, Z.ai GLM 4.7 демонстрирует высокую производительность в кодировании в сочетании с передовыми возможностями рассуждений. Эта модель отличается превосходным использованием инструментов и улучшенной производительностью в реальных агентских приложениях, ориентированных на кодирование. Она разработана для ситуаций, где требуется глубокое понимание контекста и сложная логика для генерации кода или решения проблем. Согласно анализу Artificial Analysis, Z.ai GLM 4.7 показывает впечатляющие результаты: она набирает 42 балла по Индексу интеллекта Artificial Analysis, что значительно выше среднего показателя в 30 баллов среди сопоставимых моделей.

Помимо высокого интеллекта, Z.ai GLM 4.7 также отличается заметной скоростью, генерируя 102.6 выходных токена в секунду, что существенно превышает среднюю скорость в 59 токенов. Однако стоит отметить, что модель является довольно "многословной", генерируя 170 миллионов выходных токенов в рамках оценки Индекса интеллекта по сравнению со средними 42 миллионами. Что касается стоимости, входные токены оцениваются в $0.60 USD за 1 миллион (что несколько дороже среднего показателя в $0.40), а выходные токены — в $2.20 USD за 1 миллион (также несколько дороже среднего показателя в $1.25). Тем не менее, расширенные возможности рассуждений и высокая производительность могут оправдать эти затраты для сложных и критически важных приложений.

Что это значит

Предстоящее прекращение поддержки моделей llama3.1-8b и qwen-3-235b-a22b-instruct-2507 со стороны Cerebras подчеркивает необходимость для разработчиков проактивно подходить к обновлению своих систем. Переход на рекомендованные альтернативы, такие как GPT OSS 120B и Z.ai GLM 4.7, позволит не только обеспечить непрерывность работы приложений, но и получить доступ к более совершенным возможностям в области рассуждений, кодирования и структурированных выводов. Внимательное изучение новой документации и адаптация к изменениям в управлении параметрами, такими как reasoning_effort и strict mode, станут ключом к успешной миграции и дальнейшему развитию инновационных решений на платформе Cerebras.

Глоссарий — ключевые термины

reasoning_effort — Параметр, контролирующий глубину логических рассуждений модели.

strict mode — Режим принудительного декодирования, обеспечивающий строгое соответствие вывода модели заданной JSON-схеме.

constrained decoding — Техника, гарантирующая, что сгенерированный текст соответствует определенным синтаксическим или структурным ограничениям.

Основная статья

  1. Deprecated `llama3.1-8b` and `qwen-3-235b-a22b-instruct-2507`

Дополнительные источники

  1. Reasoning
  2. Chat Completions
  3. OpenAI GPT OSS
  4. Structured Outputs
  5. Z.ai GLM 4.7
  6. artificialanalysis.ai