Стоит читать если: вы работаете с генерацией изображений и аудио, и вам нужна поддержка новейших моделей, а также улучшения производительности основной библиотеки. Можно пропустить если: вы не используете диффузионные модели в своих проектах.
Расширение арсенала: новые конвейеры для мультимодальной генерации
Версия 0.38.0 добавляет новые конвейеры для работы с изображениями и аудио, а также улучшает существующие интеграции. Это обновление позволяет разработчикам использовать новейшие архитектуры прямо в Diffusers, что упрощает эксперименты и внедрение в продакшн.
Новые возможности в генерации изображений
Среди новых конвейеров для изображений выделяются архитектуры с большим количеством параметров, демонстрирующие стремление к увеличению сложности и качества генерации:
- LLaDA2 — конвейер для дискретных диффузионных языковых моделей, которые генерируют текст путем пошаговой итеративной доработки. Это шаг к более контролируемой и качественной текстовой генерации внутри диффузионного фреймворка.
- NucleusMoE-Image — модель с 2 миллиардами активных параметров из 17 миллиардов общих, разработанная для эффективности и масштабируемости с использованием разреженной архитектуры Mixture-of-Experts (MoE) для генерации изображений. Эта модель демонстрирует, как в Diffusers приходит архитектура MoE, что может повысить качество при сохранении управляемых затрат.
- Ernie-Image — еще одна модель генерации изображений с 8 миллиардами параметров, обеспечивающая высокую эффективность.
Новые возможности в генерации аудио
В области аудио также появились заметные новшества, особенно для генерации звука по тексту:
- LongCat-AudioDiT — конвейер для диффузионной модели текста в аудио от Meituan LongCat.
- Ace-Step 1.5 — способен генерировать стереоаудио переменной длины (от 10 секунд до 10 минут) при 48 кГц из текстовых подсказок, с возможностью добавления опционального текста. Это позволяет создавать динамические и длинные аудиокомпозиции на основе текстового ввода.
Улучшения основной библиотеки и интеграция ускорителей
Обновление 0.38.0 не ограничивается только новыми моделями, оно также включает улучшения в ядре библиотеки, направленные на оптимизацию производительности и гибкости.
- Поддержка Flash Attention 4 backend — позволяет использовать более эффективные механизмы внимания, ускоряя вычисления в моделях, работающих с большими последовательностями.
- Загрузка FlashPack — ускоряет процесс загрузки некоторых моделей.
- Групповая выгрузка + TorchAO и ring_anything — интеграция этих технологий добавляет новые бэкэнды для коллективных операций (CP backend), что важно для распределенного обучения и работы с крупными моделями.
- Поддержка модульных конвейеров — появилась для моделей LTX-2 и Hunyuan 1.5. Это означает большую гибкость в конфигурировании и использовании этих моделей.
- Профилирование конвейеров — теперь в Diffusers можно профилировать работу конвейеров, что упрощает поиск узких мест и оптимизацию производительности для инженеров.
Что это значит
Diffusers продолжает наращивать мускулы, становясь универсальным инструментом для широкого круга задач в генеративном AI. Интеграция крупных и сложных моделей, а также внимание к оптимизации ядра библиотеки показывают, что HuggingFace делает ставку на производительность и расширяемость. Инженерам стоит обратить внимание на новые конвейеры для аудио и изображений, а также на улучшенные механизмы оптимизации, которые могут ускорить существующие проекты.
Также за день
- Ежедневные научные статьи HuggingFace — опубликован дайджест за 1 мая 2026 года, включающий 13 научно-исследовательских работ, отобранных сообществом. Среди тем — коллаборация гетерогенных научных моделей, эволюция визуальной генерации, дистилляция политики с совместной эволюцией, использование обучения с подкреплением на основе верификаторов для редактирования изображений и новые методы обучения на нескольких потребительских GPU. Деталей в источнике нет, ссылки на конкретные статьи доступны на странице HuggingFace Papers HuggingFace Papers.