Задержки и очереди на топовые GPU NVIDIA H100 снова стали реальностью для разработчиков. Об этом 30 июня 2026 года сообщила Replicate, ссылаясь на резкий рост спроса, который превысил пропускную способность её кластеров.
Replicate заявила об ограниченной пропускной способности H100, что приводит к задержкам масштабирования и резервному копированию очередей запросов. Инцидент затронул как вывод моделей (inference), так и тренировочные прогоны (training runs).
Платформа Replicate запустила доступ к H100 16 мая 2025 года. Тогда 1x H100 предлагался по цене $5.49 в час. Конфигурации с несколькими GPU (2x, 4x, 8x H100) были доступны только по контрактам с гарантированным объемом затрат. Одновременно с H100 компания расширила предложения для A100 и L40S, добавив многопроцессорные конфигурации.
Проблема доступности H100 не нова и не уникальна для Replicate. Ещё в июне 2023 года большинство облачных провайдеров предлагали H100 с ограниченным доступом или по предварительному согласованию:
- Lambda Labs и FluidStack предоставляли мгновенный доступ к 1x H100, но с лимитами по максимальному количеству. Цены начинались от $1.99 в час.
- Runpod, CoreWeave, Azure и Oracle Cloud требовали предварительного одобрения и согласования условий.
- AWS, Crusoe Cloud и Google Cloud не имели H100 в предложении на тот момент.
Инцидент с H100 не первый для Replicate в этом месяце. 3 июня 2026 года платформа также сообщала о длительном времени настройки и высокой конкуренции за модели на некоторых кластерах L40S и H200, хотя этот вопрос был оперативно решен.
Продолжающийся дефицит H100 у Replicate указывает на то, что даже спустя год после их широкого внедрения, доступность флагманских GPU остаётся критическим узлом для всей индустрии. Разработчикам, планирующим масштабирование AI-проектов, по-прежнему приходится учитывать риски ограниченных ресурсов и сложность получения топового оборудования.