Hugging Face Diffusers — ключевая библиотека для работы с моделями генерации изображений и видео — выпустила обновление 0.39.0. Оно не просто добавляет новые возможности, но и интегрирует сразу одиннадцать моделей от разных вендоров, расширяя инструментарий для инженеров.
В основе обновления лежит добавление новых конвейеров, которые позволяют инженерам работать с новейшими моделями генерации. Среди них выделяются:
- Cosmos 3 от NVIDIA — унифицированная модель мирового фонда (WFM) для физического ИИ, способная генерировать видео-в-видео, а также видео с учетом действий и звука. Она построена на архитектуре Mixture-of-Transformers (MoT).
- AnyFlow — первая видеодиффузионная структура с любым шагом, от NVIDIA, NUS и MIT. Она основана на картах потоков и позволяет одной модели адаптироваться к произвольным бюджетам инференса, поддерживая преобразование текста в видео, изображения в видео и видео в видео.
- DreamLite от ByteDance — модель для генерации и редактирования изображений, которая включает DreamLiteMobilePipeline для генерации с низкой задержкой прямо на устройстве.
- JoyAI-Image-Edit — мультимодальная базовая модель для понимания и редактирования изображений по инструкциям, включая пространственное редактирование объектов и управление камерой.
- Motif-Video — диффузионный трансформер с 2 миллиардами параметров для генерации текста в видео и изображения в видео, использующий трехэтапную архитектуру для стабильного выравнивания.
- Ideogram 4 — модель преобразования текста в изображение с мультимодальным текстовым кодировщиком и асимметричной схемой guidance без классификатора.
- Krea 2 (K2) — ещё одна модель преобразования текста в изображение, использующая согласование потоков и внимание на основе группированных запросов.
Помимо этих, Diffusers 0.39.0 интегрирует PRX Pixel для генерации в пиксельном пространстве без VAE, DiffusionGemma как языковую модель с блочной диффузией, а также Anima — модель, ориентированную на аниме-концепции и нефотореалистичный контент. Обновление также включает модульную поддержку конвейера для Stable Diffusion 3 (SD3), что упрощает работу с этой популярной моделью. Дополнительно библиотека получила поддержку квантизации AutoRound и BitsAndBytes на MPS, а также улучшенную производительность за счет устранения накладных расходов на синхронизацию GPU.
Выпуск Diffusers 0.39.0 подтверждает роль библиотеки как центральной платформы, которая быстро доставляет исследовательские модели в руки инженеров. Интеграция столь широкого спектра архитектур — от ИИ для физики до моделей, работающих на телефоне, — позволяет разработчикам быстрее экспериментировать и создавать новые приложения, не отвлекаясь на низкоуровневую интеграцию. Единственный пробел — отсутствие явных бенчмарков производительности для некоторых новых конвейеров.