AI News Watcher
Wednesday, Apr 22, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Apr 22, 2026 · 2 min read · Cerebras ← Back to feed

Cerebras: ключ к кэшу промптов ускорит LLM-инференс, но две модели уйдут в отставку daily

Cerebras обновила свой API, добавив параметр prompt_cache_key, который позволяет управлять кэшированием промптов и сократить задержку до первого токена. Это небольшое, но важное изменение даёт инженерам больше контроля над оптимизацией LLM-инференса для повторяющихся запросов. Одновременно с этим компания анонсировала прекращение поддержки двух моделей, что потребует миграции некоторых рабочих нагрузок.

Hero illustration: Cerebras: ключ к кэшу промптов ускорит LLM-инференс, но две модели уйдут в отставку.

Редакция · Daily briefing

Стоит читать если: вы работаете с API Cerebras Inference и ищете способы оптимизации TTFT, особенно для чат-ботов, RAG или агентских систем. Можно пропустить если: вы не используете Cerebras Inference API, или ваши рабочие нагрузки не требуют тонкой настройки кэширования.

Новый параметр: prompt_cache_key для предсказуемого кэширования

Управление кэшем стало явным. Cerebras добавила в конечные точки /v1/chat/completions и /v1/completions необязательный параметр prompt_cache_key. Это позволяет явно указать, какие запросы должны совместно использовать один и тот же кэш промптов.

Как это работает. Запросы с идентичным prompt_cache_key направляются на один и тот же бэкенд, что увеличивает вероятность попадания в кэш. Результат для инженеров — сокращение времени до первого токена (TTFT), что особенно ценно для интерактивных сценариев.

Гибкость применения. Значение prompt_cache_key можно адаптировать под разные рабочие нагрузки:

Это позволяет максимально эффективно использовать кэш, даже если полные промпты немного отличаются, но имеют общий контекст.

Анонс

Прекращение поддержки моделей

Две модели прекратят работу. Cerebras также объявила о выводе из эксплуатации моделей llama3.1-8b и qwen-3-235b-a22b-instruct-2507. Обе модели будут полностью отключены 27 мая 2026 года.

Что это значит для текущих пользователей. Если ваши приложения используют эти модели, необходимо спланировать миграцию на альтернативные решения до указанной даты, чтобы избежать перебоев в работе.

Уведомление о прекращении поддержки

Что это значит

Проактивное управление кэшированием — шаг к предсказуемой производительности. Внедрение prompt_cache_key говорит о том, что Cerebras даёт инженерам более тонкие инструменты для контроля над инференсом. Это особенно важно для тех, кто строит LLM-приложения, где стабильность и скорость ответа критичны, позволяя добиться более надёжного TTFT. Проверьте свои рабочие нагрузки на устаревшие модели и запланируйте их миграцию: такие изменения часто проходят незаметно, но могут привести к неработоспособности продакшена.

Источники

  1. https://inference-docs.cerebras.ai/support/change-log docs
  2. https://inference-docs.cerebras.ai/support/deprecation docs