Hugging Face: Синхронизация дельта-весов в TRL сокращает передачу данных с терабайта до мегабайт

Hero illustration: Hugging Face: Синхронизация дельта-весов в TRL сокращает передачу данных с терабайта до мегабайт.

О чём эта новость

Новая синхронизация дельта-весов в TRL резко сокращает объем данных для асинхронного RL.подробнее →
Эффект BF16 объясняет, почему 98-99% весов остаются неизменными между шагами обучения.подробнее →
Архитектура использует Hub Buckets для полной дезагрегации обучения и инференса.подробнее →
Объем данных сокращается с 1.2 ГБ до 20-35 МБ за шаг обучения.подробнее →

Hugging Face представила новую функцию синхронизации дельта-весов в своей библиотеке TRL, призванную радикально изменить подход к асинхронному обучению с подкреплением (RL) для крупномасштабных моделей. Это решение позволяет сократить объемы передаваемых данных с терабайтов до мегабайтов, устраняя серьезное узкое место, связанное с необходимостью постоянной полной синхронизации весов между тренером и инференс-движком. Инновация опирается на разреженные обновления и использование специализированных хранилищ, таких как Hub Buckets, делая распределенное обучение значительно более эффективным и экономичным.

Проблема синхронизации весов в асинхронном RL

Асинхронное обучение с подкреплением (RL) сталкивается с фундаментальной проблемой, известной как «проблема одного терабайта», которая возникает из-за необходимости постоянно синхронизировать веса модели между тренером и инференс-движком. В традиционных архитектурах каждый шаг обучения требует полной передачи всей модели от тренера к системе инференса, чтобы предотвратить значительное отклонение от текущей политики. Для моделей с триллионом параметров, работающих в формате fp8, полный снимок весов может достигать 1024 ГиБ, или одного терабайта, что требует колоссальных объемов данных для передачи.

Полная синхронизация весов крайне неэффективна и создает узкое место в критически важном пути обучения. Эта блокирующая передача данных приводит к простою GPU, которые не генерируют токены, а простаивают в ожидании новых весов. Это не только замедляет процесс обучения, но и значительно увеличивает эксплуатационные расходы, поскольку дорогостоящие вычислительные ресурсы остаются неиспользованными. Проблема усугубляется, если тренер и инференс-движок находятся в разных регионах или облаках, что требует высокоскоростных сетевых соединений или дорогостоящих мегакластеров.

С этой же проблемой столкнулись и другие ведущие компании. Например, Fireworks AI в своем блоге «Frontier RL Is Cheaper Than You Think» описала, что традиционное мнение о необходимости пересылки 1 ТБ весов при каждом обновлении флота развертывания неверно. Они эмпирически обнаружили, что более 98% весов в формате BF16 остаются битово-эквивалентными между последовательными контрольными точками. Аналогично, Cursor в своем техническом отчете о Composer 2 использовали общую корзину S3 для обмена сжатыми дельтами весов между кластерами, работающими в разных регионах, что позволило им полностью дезагрегировать обучение и инференс. Hugging Face ставит целью решить эту проблему, предлагая открытое и доступное решение.

Почему веса BF16 остаются разреженными: техническое обоснование

Феномен, лежащий в основе эффективности синхронизации дельта-весов, заключается в том, что большинство весов BF16 в моделях с подкреплением остаются неизменными между последовательными шагами оптимизации. Исследования показали, что примерно 99% весов BF16 остаются битово-идентичными между соседними этапами обучения, а в худшем случае это значение никогда не опускается ниже 98%. Это означает, что фактическое изменение весов, которые необходимо синхронизировать, минимально.

Чтобы понять причину такой разреженности, необходимо рассмотреть, как работает арифметика BF16 (bfloat16). Число BF16 имеет 7 бит мантиссы, что означает, что между двумя последовательными степенями двойки существует ровно 2^7 = 128 представимых значений. Интервал между соседними числами BF16 вокруг величины веса |w| составляет приблизительно |w| * 2^-7. Обновление поглощается приведением к BF16 всякий раз, когда оно меньше половины этого интервала, то есть когда |Δw| < |w| / 256. Именно это явление известно как «порог видимости BF16».

Теперь рассмотрим, как оптимизатор Adam работает с типовыми скоростями обучения в RL. Например, при скорости обучения 3 × 10^-6 обновление отдельного веса Δw приблизительно равно этой скорости обучения. Для большинства весов |w| находится в диапазоне от 10^-2 до 10^-1 (PULSE сообщает медиану 0.019 для репрезентативных весов LLM). При таких значениях порог видимости |w| / 256 составляет примерно от 4 × 10^-5 до 4 × 10^-4, что значительно больше, чем величина обновления. Проще говоря, оптимизатор «шепчет», но BF16 его не «слышит». Обновление поглощается округлением, и байтовое представление веса w не меняется. С точки зрения инференс-движка, этот вес остается на месте. Умножьте это на несколько сотен миллионов параметров, и вы получите показатель разреженности более 99% без каких-либо аппроксимаций.

Это объяснение формализовано в статье PULSE (Mihai & Belilovsky, 2026), которая определяет два порога: консервативную «границу поглощения» (10η) и фактическую «эффективную границу» (η). Они эмпирически измерили этот эффект на различных моделях, включая Qwen2.5, Llama-3.2-3B и Gemma-3-4B, и последовательно обнаружили среднюю разреженность около 99% на шаг обучения со стандартным отклонением 0.2–0.4% на протяжении 400 шагов. Худший сценарий все равно демонстрирует более 98% неизменных весов. Таким образом, менее 1% изменившихся весов — это не случайное измерение, а гарантия, обусловленная арифметикой BF16. Нет необходимости аналитически предсказывать эти изменения; достаточно просто отслеживать, какие байты изменились, что формирует небольшой булевый тензор для каждого параметра после шага оптимизатора. Отсутствие данных о возможных ограничениях или сценариях, где дельта-синхронизация может быть менее эффективной, например, при значительно более высоких или нестандартных скоростях обучения, является одним из недостатков текущих источников.

Решение Hugging Face: синхронизация дельта-весов в TRL

Hugging Face представила инновационное решение для проблемы синхронизации весов в асинхронном обучении с подкреплением — синхронизацию дельта-весов, интегрированную непосредственно в свою библиотеку TRL (Transformer Reinforcement Learning). Суть этого подхода заключается в передаче не всей модели, а только разницы (дельты) между последовательными версиями весов. Это позволяет значительно сократить объем сетевого трафика и повысить эффективность распределенного RL.

Реализация в библиотеке TRL использует механизм обнаружения изменений, который идентифицирует только те элементы весов BF16, которые фактически изменились после шага оптимизатора. Вместо того чтобы пересылать полный снимок модели, система кодирует только эти изменившиеся элементы в разреженный файл safetensors, который содержит как индексы изменившихся параметров, так и их новые значения. Этот файл затем загружается в Hugging Face Bucket. На стороне инференса vLLM-сервер получает уведомление, загружает этот небольшой дельта-патч и применяет его к своей текущей версии модели, восстанавливая точное состояние весов тренера. Такая архитектура обеспечивает битово-идентичное восстановление весов без необходимости прямого взаимодействия между тренером и инференс-сервером.

Для кодирования дельта-патчей используется формат safetensors. Этот формат, уже являющийся каноническим для контрольных точек в Hugging Face Hub, был выбран за его безопасность, эффективность и возможность хранения произвольных метаданных. В метаданных safetensors скрывается информация о протоколе, указывающая, является ли файл полным якорем (полным снимком модели, который сохраняется каждые N синхронизаций, по умолчанию N=10) или разреженным дельта-патчем. Например, для модели Qwen3-0.6B, объем передаваемых данных сокращается с 1.2 ГБ до всего лишь 20–35 МБ за один шаг синхронизации. Это сокращение в 30–60 раз приводит к значительному уменьшению сетевой нагрузки и времени простоя GPU.

PR-запрос на GitHub Delta weight sync using Xet buckets #5417 описывает ключевые аспекты реализации. Он включает в себя внедрение DeltaWeightTransferEngine для эффективного создания и применения разреженных патчей весов, а также использование ULPChangeDetector для точного отслеживания изменений на уровне оптимизатора, что позволяет избежать ложных срабатываний и обеспечить максимальную разреженность. Система поддерживает как периодические полные "якорные" контрольные точки для надежности и легкого восстановления, так и дельта-патчи, передаваемые через Hugging Face Hub. Это двухуровневый подход обеспечивает баланс между производительностью и отказоустойчивостью. Документация не раскрывает конкретные сравнительные метрики производительности (кроме объема данных) между старым и новым методом на разных типах моделей, что является одним из недостатков текущих источников.

Архитектура распределенного обучения с Hub Buckets

В основе новой системы Hugging Face лежит архитектура из трех компонентов, которая полностью дезагрегирует процесс обучения и инференса. Этими компонентами являются: тренер, Hub Bucket и сервер vLLM для развертывания. Тренер, независимо от того, где он расположен (один GPU, восемь GPU или даже ноутбук), отвечает за владение весами модели, запуск оптимизатора и генерацию разреженных дельта-патчей. Сервер vLLM развертывания, который также может находиться где угодно и не обязательно там же, где тренер, извлекает эти патчи из общего хранилища, применяет их и обеспечивает инференс.

Hub Buckets используются как единое, общее хранилище объектов, служащее связующим звеном между тренером и серверами инференса. Bucket — это тип репозитория на Hub, разработанный для высокочастотного хранения объектов без необходимости соблюдения строгих процедур Git (коммиты, PR-ы). Тренер загружает дельта-патчи (или полные якоря) в Bucket, а серверы инференса загружают их оттуда. Это означает, что тренер и сервер развертывания никогда не общаются напрямую по поводу весов; они обмениваются лишь крошечными сообщениями контроля, указывающими на имя файла с весами в Bucket.

Дезагрегированный подход предлагает значительные преимущества. Сервер развертывания может находиться в другом регионе, другом облаке или даже за NAT в Hugging Face Space, что обеспечивает беспрецедентную гибкость развертывания. Множество инференс-реплик могут одновременно загружать одну и ту же дельту из одного Bucket, при этом Hugging Face Hub автоматически дедуплицирует байты между ними. Тренеру не нужно знать о количестве или местоположении инференс-реплик, что упрощает масштабирование. Эффективность Buckets в значительной степени обусловлена Xet, внутренним уровнем хранения Hub на основе фрагментирования по содержимому. Xet автоматически дедуплицирует данные, разбивая файлы на фрагменты и сохраняя только уникальные, даже если загружаются полные модели, что дополнительно сокращает объемы передаваемых данных и затраты. Однако, источники не предоставляют конкретной дорожной карты по интеграции с другими библиотеками или фреймворками, помимо TRL/vLLM, что является существенным пробелом.

Практическое применение и протокол

Протокол синхронизации дельта-весов Hugging Face разработан для максимальной простоты и эффективности, значительно снижая сложность и стоимость распределенного RL. Протокол включает четыре основные части: формат передачи данных (safetensors), структуру Bucket, расширение vLLM и детектор изменений на стороне тренера. На практике это сводится к нескольким вызовам функций.

Интеграция для разработчиков чрезвычайно проста. На стороне тренера используется функция batch_bucket_files из библиотеки huggingface_hub для загрузки дельта-патчей в Hub Bucket. На стороне инференса vLLM-сервер вызывает download_bucket_files для получения необходимых файлов. Тренер асинхронно публикует "веса готовы" и загружает их в общий Bucket сразу после завершения шага оптимизатора, в то время как инференс-движок забирает их в удобное для себя время. Это исключает блокирующие передачи данных, минимизируя время простоя.

Процесс обновления весов включает несколько конкретных шагов:

Тренер завершает шаг оптимизации и определяет, какие веса BF16 изменились.
Только изменившиеся элементы кодируются в разреженный файл safetensors.
Этот файл загружается в заранее определенный Hub Bucket (в подпапку deltas/).
Периодически (по умолчанию каждые 10 шагов) тренер также загружает полный снимок модели (anchor) в Bucket (в подпапку anchors/) для надежного восстановления и инициализации.
Сервер vLLM получает уведомление о наличии новых весов, загружает дельта-патч (или якорь), применяет его к своей текущей модели и продолжает генерацию траекторий.

Это означает существенное повышение гибкости развертывания систем RL. Теперь нет необходимости в дорогостоящих мегакластерах с RDMA-сетями или выделенных межрегиональных каналах. Тренер и инференс-сервер могут быть развернуты в разных регионах, разных облаках или даже в изолированных средах, общаясь только через Hub Bucket. Это открывает возможности для использования более дешевых и разнообразных вычислительных ресурсов, делая крупномасштабное асинхронное RL доступным для более широкого круга команд.

Что это значит

Внедрение Hugging Face синхронизации дельта-весов в библиотеке TRL представляет собой критически важный шаг к демократизации крупномасштабного асинхронного обучения с подкреплением. Устранив необходимость передачи терабайтов данных при каждом шаге обучения и заменив ее эффективными мегабайтными дельта-патчами, Hugging Face значительно снижает барьеры для входа, связанные с дорогостоящими сетевыми ресурсами и вычислительной инфраструктурой. Это позволяет разработчикам сосредоточиться на алгоритмах и продуктовых инновациях, а не на преодолении фундаментальных системных ограничений, делая обучение моделей на триллион параметров значительно более доступным, эффективным и экономически выгодным для всей экосистемы машинного обучения.

Hugging Face: Синхронизация дельта-весов в TRL сокращает передачу данных с терабайта до мегабайт daily