Cerebras открыл dedicated endpoints для Step 3.5 Flash и Step 3.7 Flash от StepFun. Enterprise-клиенты получают изолированную инфраструктуру под MoE-модели — и это не просто удобство, а принципиальный сдвиг для production-нагрузок, где деградация латентности от соседних воркloadов неприемлема.
На shared-инференсе пропускная способность и задержка зависят от того, что делают другие пользователи в тот же момент. Dedicated Endpoints убирают эту переменную: зарезервированная мощность работает только на одну организацию, throughput и латентность предсказуемы под нагрузкой. Для real-time приложений и customer-facing продуктов это меняет расчёт надёжности.
Step 3.5 Flash — sparse MoE: при 196.81B суммарных параметрах на каждый токен активируется только ~11B. Из этого вытекает несколько практических характеристик:
- Контекст — 256K токенов через 3:1 Sliding Window Attention.
- Throughput — 100–350 tok/s, пик на кодовых задачах.
- SWE-bench Verified — 74.4%, что ставит модель в один ряд с топовыми coding-агентами.
Про Step 3.7 Flash Cerebras пока не раскрыл публичных характеристик.
Логика пары «sparse MoE + выделенное железо» прямая: активный compute дешевле, чем у dense-моделей сопоставимого качества, а зарезервированная мощность убирает джиттер латентности. Но Cerebras не опубликовал ни тарифы dedicated-тарифов для Step-моделей, ни измеренные показатели throughput именно на своём железе. Цифры 100–350 tok/s — из карточки NVIDIA Build, не из Cerebras. Сравнивать пока не с чем.