Cerebras: ключ к кэшу промптов ускорит LLM-инференс, но две модели уйдут в отставку

Hero illustration: Cerebras: ключ к кэшу промптов ускорит LLM-инференс, но две модели уйдут в отставку.

Стоит читать если: вы работаете с API Cerebras Inference и ищете способы оптимизации TTFT, особенно для чат-ботов, RAG или агентских систем. Можно пропустить если: вы не используете Cerebras Inference API, или ваши рабочие нагрузки не требуют тонкой настройки кэширования.

Новый параметр: prompt_cache_key для предсказуемого кэширования

Управление кэшем стало явным. Cerebras добавила в конечные точки /v1/chat/completions и /v1/completions необязательный параметр prompt_cache_key. Это позволяет явно указать, какие запросы должны совместно использовать один и тот же кэш промптов.

Как это работает. Запросы с идентичным prompt_cache_key направляются на один и тот же бэкенд, что увеличивает вероятность попадания в кэш. Результат для инженеров — сокращение времени до первого токена (TTFT), что особенно ценно для интерактивных сценариев.

Гибкость применения. Значение prompt_cache_key можно адаптировать под разные рабочие нагрузки:

Для чат-сессий можно использовать ID беседы.
Для однопользовательских систем подойдёт ID пользователя или сессии.
Для RAG и агентских систем оптимальным будет хеш общего префикса промпта.

Это позволяет максимально эффективно использовать кэш, даже если полные промпты немного отличаются, но имеют общий контекст.

Анонс

Прекращение поддержки моделей

Две модели прекратят работу. Cerebras также объявила о выводе из эксплуатации моделей llama3.1-8b и qwen-3-235b-a22b-instruct-2507. Обе модели будут полностью отключены 27 мая 2026 года.

Что это значит для текущих пользователей. Если ваши приложения используют эти модели, необходимо спланировать миграцию на альтернативные решения до указанной даты, чтобы избежать перебоев в работе.

Уведомление о прекращении поддержки

Что это значит

Проактивное управление кэшированием — шаг к предсказуемой производительности. Внедрение prompt_cache_key говорит о том, что Cerebras даёт инженерам более тонкие инструменты для контроля над инференсом. Это особенно важно для тех, кто строит LLM-приложения, где стабильность и скорость ответа критичны, позволяя добиться более надёжного TTFT. Проверьте свои рабочие нагрузки на устаревшие модели и запланируйте их миграцию: такие изменения часто проходят незаметно, но могут привести к неработоспособности продакшена.

Cerebras: ключ к кэшу промптов ускорит LLM-инференс, но две модели уйдут в отставку daily

Новый параметр: prompt_cache_key для предсказуемого кэширования

Прекращение поддержки моделей

Что это значит

Источники

Оценить материал