Когда несколько пользователей одновременно тянутся к одним и тем же GPU, время ожидания растёт непредсказуемо. Именно это произошло на части кластеров L40S и H200 у Replicate: аномально долгое время настройки и высокая конкуренция за модели. По состоянию на 3 июня 2026 года инцидент закрыт.
Проблема затронула оба класса железа одновременно — и относительно бюджетные L40S, и топовые H200. Это не точечный сбой на одном типе GPU, а системная нагрузка, продавившая сразу два уровня инфраструктуры.
Replicate подтвердил, что проблема устранена и система работает нормально. Временны́е рамки инцидента, список затронутых моделей или регионов и первопричина публично не раскрыты.
Инцидент короткий, но показательный: Replicate держит на одной платформе и L40S, и H200, и при пиковой нагрузке очереди могут возникать на обоих уровнях сразу. Что осталось за кадром — сколько длился сбой, какие конкретно модели или регионы пострадали и что именно было сделано для устранения.