Стоит читать если: вы работаете с генерацией музыки или звуковых эффектов, интересуетесь открытыми моделями и возможностью коммерческого использования. Можно пропустить если: ваша задача не связана с аудио или вы ищете только проприетарные решения для API.
Новая архитектура для гибкой генерации аудио
Stable Audio 3.0 — это семейство быстрых латентных диффузионных моделей, предназначенных для генерации и редактирования аудио переменной длины. Эти модели способны создавать аудио длительностью до нескольких минут, что критично для производства полноценных композиций. В основе архитектуры лежит новый семантико-акустический автоэнкодер SAME (Semantically-Aligned Music Autoencoder). SAME проецирует аудио в компактное латентное пространство, что обеспечивает эффективную генерацию на основе диффузии, сохраняя при этом верность звука и поддерживая семантическую структуру в латенте. Для ускорения инференса и улучшения качества генерации используется состязательное пост-обучение. Это позволяет уменьшить количество шагов инференса, одновременно улучшая точность и соответствие промпту. Поддерживается функция инпейнтинга, которая позволяет выполнять точечное редактирование аудио, перерабатывать сегменты трека или продолжать короткие записи.
Модели и их возможности: от звуковых эффектов до полноценных треков
Stability AI выпустила четыре новые модели в рамках семейства Stable Audio 3.0, каждая из которых оптимизирована для конкретных сценариев использования и развертывания:
- Stable Audio 3.0 Small SFX — для генерации звуковых эффектов на устройствах, таких как мобильные телефоны и потребительские ноутбуки.
- Stable Audio 3.0 Small — для создания полной музыкальной композиции на устройстве. Эта модель, по утверждению Stability AI, является единственной, способной генерировать полноценные музыкальные треки локально. Она генерирует аудио до двух минут.
- Stable Audio 3.0 Medium — для более высокой музыкальности, структурной и мелодической согласованности, а также для создания треков длиной до 6 минут 20 секунд. Эта модель, наряду с Large, генерирует аудио более шести минут.
- Stable Audio 3.0 Large — обеспечивает наиболее продвинутые музыкальные возможности в семействе и предназначена для музыкальных платформ и креативных приложений, требующих генерации с низкой задержкой и большим объемом.
Модели обучены на лицензированных данных и Creative Commons, что позволяет генерировать музыку и звуки. Скорость генерации быстрая: менее 2 секунд на H200 GPU и несколько секунд на MacBook Pro M4.
Открытые веса и лицензирование для коммерциализации
Веса моделей Stable Audio 3.0 Small SFX, Stable Audio 3.0 Small и Stable Audio 3.0 Medium доступны с открытыми весами на Hugging Face. Stable Audio 3.0 Large доступна через API Stability AI и для самостоятельного хостинга в корпоративных развертываниях. Пользователи владеют своими результатами: их можно свободно распространять и коммерциализировать по лицензии Stability AI Community License. Для организаций с доходом более $1 млн в год доступна Enterprise License, которая включает коммерческое покрытие и юридическую защиту.
Для кастомизации моделей на собственной библиотеке поддерживается LoRa-обучение. Stability AI впервые публикует документацию по LoRa-тренировке вместе с весами 3.0 Small и 3.0 Medium.
Что это значит
Выпуск Stable Audio 3.0 с открытыми весами и гибким лицензированием смещает акцент в генерации аудио в сторону пользовательского контроля и локальных возможностей. Это открывает двери для инженеров и художников, желающих интегрировать передовые возможности генерации музыки и звуков в свои приложения, сохраняя при этом полный контроль над созданными произведениями и их коммерциализацией. Возможность локальной композиции на мобильных устройствах может стать значительным шагом для автономных музыкальных инструментов и креативных приложений.
Ссылки: