Стоит читать если: вы используете или планируете использовать Cerebras для развертывания моделей, особенно интересуетесь оптимизацией работы агентов и управлением API-ключами. Можно пропустить если: вы не работаете с инфраструктурой Cerebras и не следите за их моделями.
Инцидент с доступностью сервиса qwen-3-235b-a22b-instruct-2507
Сервис qwen-3-235b-a22b-instruct-2507 был временно недоступен. Компания Cerebras зафиксировала инцидент с доступностью своего сервиса qwen-3-235b-a22b-instruct-2507, который был оперативно устранен 1 мая в 08:57 UTC.
Инцидент полностью устранен. Компонент qwen-3-235b-a22b-instruct-2507 вернулся к нормальной работе, что подтверждает статус "resolved". Инцидент
«Проекты» теперь общедоступны
Функциональность «Проекты» вышла из приватного превью. Теперь она общедоступна для всех организаций, предлагая улучшенные возможности управления и организации рабочего процесса. «Проекты» предназначены для структурирования работы с API. Они позволяют группировать ключи API, устанавливать индивидуальные лимиты скорости для каждого проекта, сегментировать аналитику использования и управлять доступом участников в изолированных рабочих пространствах. Существующие настройки сохранятся. Каждая организация по умолчанию начинает с «Default Project», поэтому все текущие конфигурации и ключи API остаются без изменений. Чейнджлог
Кейс-стади: Cerebras ускоряет агентов Cognition в 5 раз
Cerebras опубликовала кейс-стади о сотрудничестве с Cognition. В рамках этого партнерства агенты swe-1-6 и swe-grep от Cognition демонстрируют высокую производительность при написании кода, работая до 5 раз быстрее по сравнению с GPU на инфраструктуре Cerebras Inference. Проблема задержек на GPU. До появления решения от Cerebras, AI-ассистенты для кодирования на GPU сталкивались с задержками генерации в 20-30 секунд, что нарушало концентрацию разработчиков и вынуждало их переключать контекст. Это создавало дилемму между использованием маленьких, быстрых, но менее способных моделей и больших, медленных. Решение Cerebras обеспечивает высокую скорость и стабильность. Cognition co-designed своих агентов, моделей и стек инференса, выбрав Cerebras как провайдера для ускорения swe-1-6. SWE-1.6 достигает 950 токенов/секунду. Модель, специально оптимизированная для задач инженерии ПО, работает на быстрой платформе Windsurf, поддерживаемой Cerebras. Это устраняет необходимость выбора между скоростью и качеством мышления модели. Улучшенный пользовательский опыт. Разработчики могут использовать SWE-1.6 для:
- Исследования больших репозиториев.
- Создания full-stack приложений.
- Редактирования конфигураций, таких как манифесты Kubernetes, менее чем за пять секунд. Помимо сырой скорости, модель улучшает взаимодействие. SWE-1.6 чаще использует параллельные вызовы инструментов, реже зацикливается и больше полагается на собственные инструменты, чем на команды терминала. Это приводит к более быстрой агрегации контекста, эффективным траекториям и меньшему вмешательству пользователя при сложной работе. Прирост в бенчмарках. На SWE-Bench Pro, SWE-1.6 показала 50.4% против 40.1% у SWE-1.5, при этом улучшая поведение агента в реальных инженерных рабочих процессах. SWE-grep и SWE-grep-mini для параллельного поиска. Эти специализированные субагенты, работающие на Cerebras Inference, обеспечивают быструю контекстную подсистему Windsurf. Они сокращают время сбора контекста с десятков секунд до считанных секунд, делая поиск, рассуждения, использование инструментов и редактирование частью более быстрого цикла, что приближает ощущения от работы к парному программированию с реальным напарником. Совместная оптимизация модели, агента и инференса. Совместная работа над моделью (SWE-1.6), средой агента (Cascade) и уровнем инференса (Cerebras) позволяет Cognition предоставлять цельный опыт работы с агентами, настроенный на реальные инженерные процессы и UX, а не только на бенчмарки. Кейс-стади
Что это значит
Выпуск «Проектов» и впечатляющие результаты с Cognition показывают, что Cerebras стремится улучшить как управляемость платформы, так и производительность AI-агентов. Для инженеров, работающих с моделями в продакшене, это означает более гибкий контроль над ресурсами и потенциал для ускорения процессов разработки кода, что критически важно в условиях, где каждая секунда задержки снижает продуктивность и увеличивает когнитивную нагрузку.