Запуск высокопроизводительного LLM-сервера, совместимого с OpenAI API, обычно требует настройки инфраструктуры и Kubernetes. Hugging Face теперь позволяет развернуть такой сервер на своей платформе всего одной командой, без необходимости выделять собственные серверы или управлять сложной оркестрацией.
Hugging Face представил возможность быстрого запуска приватной конечной точки LLM на базе фреймворка vLLM. Для этого используется одна команда hf jobs run, которая работает как docker run для инфраструктуры Hugging Face. Сервер разворачивается из официального образа vllm/vllm-openai:latest на выбранном GPU (например, a10g-large) с открытым портом. После запуска, который занимает пару минут на загрузку весов и старт, система выдаёт уникальный URL для доступа.
Развёрнутый эндпоинт полностью совместим с OpenAI API. Запросы к нему можно отправлять из любого места — с ноутбука или из другого сервиса, используя стандартные библиотеки, такие как openai для Python, или curl. Доступ к серверу приватный и защищён токеном Hugging Face, который должен иметь права на чтение в пространстве имён запущенной задачи. Прокси Hugging Face выполняет роль шлюза API, ограничивая доступ.
В основе высокой производительности лежит vLLM — открытая библиотека для быстрого инференса LLM. Она использует алгоритм PagedAttention, который эффективно управляет ключами и значениями внимания. Благодаря этому vLLM обеспечивает до 24 раз более высокую пропускную способность по сравнению с HuggingFace Transformers и до 3.5 раз по сравнению с HuggingFace Text Generation Inference.
Это решение идеально подходит для быстрой проверки гипотез, проведения оценок моделей и пакетной генерации текста. Оплата за использование инфраструктуры Hugging Face Jobs осуществляется посекундно по фактическому времени работы оборудования. Однако Hugging Face подчёркивает, что для управляемого продакшен-сервиса предназначены их Inference Endpoints.
Такой подход от Hugging Face позволяет разработчикам быстро проверять гипотезы с мощностью vLLM, не тратя время на настройку инфраструктуры. Однако для стабильного продакшена вендор по-прежнему рекомендует свои Inference Endpoints.