StepFun Step 3.5/3.7 Flash появились на выделенных эндпоинтах Cerebras

StepFun Step 3.5/3.7 Flash появились на выделенных эндпоинтах Cerebras daily

Sparse MoE с 196B параметрами и ~11B активными — теперь с гарантированной пропускной способностью.

Hero illustration: StepFun Step 3.5/3.7 Flash появились на выделенных эндпоинтах Cerebras.

Cerebras открыл dedicated endpoints для Step 3.5 Flash и Step 3.7 Flash от StepFun. Enterprise-клиенты получают изолированную инфраструктуру под MoE-модели — и это не просто удобство, а принципиальный сдвиг для production-нагрузок, где деградация латентности от соседних воркloadов неприемлема.

На shared-инференсе пропускная способность и задержка зависят от того, что делают другие пользователи в тот же момент. Dedicated Endpoints убирают эту переменную: зарезервированная мощность работает только на одну организацию, throughput и латентность предсказуемы под нагрузкой. Для real-time приложений и customer-facing продуктов это меняет расчёт надёжности.

Step 3.5 Flash — sparse MoE: при 196.81B суммарных параметрах на каждый токен активируется только ~11B. Из этого вытекает несколько практических характеристик:

Контекст — 256K токенов через 3:1 Sliding Window Attention.
Throughput — 100–350 tok/s, пик на кодовых задачах.
SWE-bench Verified — 74.4%, что ставит модель в один ряд с топовыми coding-агентами.

Про Step 3.7 Flash Cerebras пока не раскрыл публичных характеристик.

Логика пары «sparse MoE + выделенное железо» прямая: активный compute дешевле, чем у dense-моделей сопоставимого качества, а зарезервированная мощность убирает джиттер латентности. Но Cerebras не опубликовал ни тарифы dedicated-тарифов для Step-моделей, ни измеренные показатели throughput именно на своём железе. Цифры 100–350 tok/s — из карточки NVIDIA Build, не из Cerebras. Сравнивать пока не с чем.

StepFun Step 3.5/3.7 Flash появились на выделенных эндпоинтах Cerebras daily

Основная статья

Дополнительные источники

Оценить материал