Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации

Hero illustration: Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации.

Стоит читать если: вы работаете с генерацией изображений и аудио, и вам нужна поддержка новейших моделей, а также улучшения производительности основной библиотеки. Можно пропустить если: вы не используете диффузионные модели в своих проектах.

Расширение арсенала: новые конвейеры для мультимодальной генерации

Версия 0.38.0 добавляет новые конвейеры для работы с изображениями и аудио, а также улучшает существующие интеграции. Это обновление позволяет разработчикам использовать новейшие архитектуры прямо в Diffusers, что упрощает эксперименты и внедрение в продакшн.

Новые возможности в генерации изображений

Среди новых конвейеров для изображений выделяются архитектуры с большим количеством параметров, демонстрирующие стремление к увеличению сложности и качества генерации:

LLaDA2 — конвейер для дискретных диффузионных языковых моделей, которые генерируют текст путем пошаговой итеративной доработки. Это шаг к более контролируемой и качественной текстовой генерации внутри диффузионного фреймворка.
NucleusMoE-Image — модель с 2 миллиардами активных параметров из 17 миллиардов общих, разработанная для эффективности и масштабируемости с использованием разреженной архитектуры Mixture-of-Experts (MoE) для генерации изображений. Эта модель демонстрирует, как в Diffusers приходит архитектура MoE, что может повысить качество при сохранении управляемых затрат.
Ernie-Image — еще одна модель генерации изображений с 8 миллиардами параметров, обеспечивающая высокую эффективность.

Новые возможности в генерации аудио

В области аудио также появились заметные новшества, особенно для генерации звука по тексту:

LongCat-AudioDiT — конвейер для диффузионной модели текста в аудио от Meituan LongCat.
Ace-Step 1.5 — способен генерировать стереоаудио переменной длины (от 10 секунд до 10 минут) при 48 кГц из текстовых подсказок, с возможностью добавления опционального текста. Это позволяет создавать динамические и длинные аудиокомпозиции на основе текстового ввода.

Улучшения основной библиотеки и интеграция ускорителей

Обновление 0.38.0 не ограничивается только новыми моделями, оно также включает улучшения в ядре библиотеки, направленные на оптимизацию производительности и гибкости.

Поддержка Flash Attention 4 backend — позволяет использовать более эффективные механизмы внимания, ускоряя вычисления в моделях, работающих с большими последовательностями.
Загрузка FlashPack — ускоряет процесс загрузки некоторых моделей.
Групповая выгрузка + TorchAO и ring_anything — интеграция этих технологий добавляет новые бэкэнды для коллективных операций (CP backend), что важно для распределенного обучения и работы с крупными моделями.
Поддержка модульных конвейеров — появилась для моделей LTX-2 и Hunyuan 1.5. Это означает большую гибкость в конфигурировании и использовании этих моделей.
Профилирование конвейеров — теперь в Diffusers можно профилировать работу конвейеров, что упрощает поиск узких мест и оптимизацию производительности для инженеров.

Что это значит

Diffusers продолжает наращивать мускулы, становясь универсальным инструментом для широкого круга задач в генеративном AI. Интеграция крупных и сложных моделей, а также внимание к оптимизации ядра библиотеки показывают, что HuggingFace делает ставку на производительность и расширяемость. Инженерам стоит обратить внимание на новые конвейеры для аудио и изображений, а также на улучшенные механизмы оптимизации, которые могут ускорить существующие проекты.

Также за день

Ежедневные научные статьи HuggingFace — опубликован дайджест за 1 мая 2026 года, включающий 13 научно-исследовательских работ, отобранных сообществом. Среди тем — коллаборация гетерогенных научных моделей, эволюция визуальной генерации, дистилляция политики с совместной эволюцией, использование обучения с подкреплением на основе верификаторов для редактирования изображений и новые методы обучения на нескольких потребительских GPU. Деталей в источнике нет, ссылки на конкретные статьи доступны на странице HuggingFace Papers HuggingFace Papers.

Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации daily