NeMo AutoModel от Hugging Face и NVIDIA: MoE-модели обучаются в 3.7 раза быстрее — без смены кода

Когда для тонкой настройки Mixture-of-Experts (MoE) моделей достаточно одной строчки кода, это меняет многое. Hugging Face и NVIDIA представили NeMo AutoModel — открытую библиотеку, которая ускоряет этот процесс в 3.7 раза, не требуя менять привычный код. Это делает LLM более доступными для разработчиков.

NeMo AutoModel нацелена на ускорение тонкой настройки трансформерных моделей с архитектурой MoE. По заявлению разработчиков, библиотека обеспечивает до 3.7x более высокую пропускную способность обучения и сокращает потребление памяти GPU на 32% по сравнению с нативной реализацией в Transformers v5.

Библиотека является частью фреймворка NVIDIA NeMo и строится поверх Transformers v5. Пятая версия Transformers заложила основы для работы с MoE, добавив поддержку экспертных бэкендов, динамической загрузки весов и распределённого выполнения. NeMo AutoModel использует эти возможности, добавляя свои оптимизации.

Среди ключевых технических решений NeMo AutoModel — Expert Parallelism (EP), DeepEP fused all-to-all dispatch (который перекрывает коммуникацию с вычислениями экспертов) и ядра TransformerEngine. Благодаря использованию обратимого преобразования весов v5, NeMo AutoModel может фокусироваться на этих базовых операциях, а не на специфической для каждой модели логике загрузки.

NeMo AutoModel сохраняет полную совместимость с API Hugging Face Transformers. Для использования всех преимуществ достаточно изменить одну строку импорта, при этом весь остальной код остаётся прежним. Библиотека поддерживает популярные архитектуры MoE, такие как Qwen3, NVIDIA Nemotron, GPT-OSS и DeepSeek V3. Производительность была протестирована на широком спектре моделей, от крупномасштабной Nemotron 3 Ultra 550B A55B на 16 узлах до одноузловых Qwen3-30B-A3B и Nemotron 3 Nano 30B A3B.

NeMo AutoModel снижает барьер входа для тонкой настройки сложных MoE-моделей, позволяя разработчикам работать с архитектурами без глубокой переработки кода. Однако, заявленные показатели производительности получены в рамках экосистемы NVIDIA NeMo, и независимые замеры для других сред пока отсутствуют.

NeMo AutoModel от Hugging Face и NVIDIA: MoE-модели обучаются в 3.7 раза быстрее — без смены кода daily

Дополнительные источники

Источники

Оценить материал