Stable Audio 3.0: Композиции на минуты и локально — с лицензией для художников

Hero illustration: Stable Audio 3.0: Композиции на минуты и локально — с лицензией для художников.

Стоит читать если: вы работаете с генерацией музыки или звуковых эффектов, интересуетесь открытыми моделями и возможностью коммерческого использования. Можно пропустить если: ваша задача не связана с аудио или вы ищете только проприетарные решения для API.

Новая архитектура для гибкой генерации аудио

Stable Audio 3.0 — это семейство быстрых латентных диффузионных моделей, предназначенных для генерации и редактирования аудио переменной длины. Эти модели способны создавать аудио длительностью до нескольких минут, что критично для производства полноценных композиций. В основе архитектуры лежит новый семантико-акустический автоэнкодер SAME (Semantically-Aligned Music Autoencoder). SAME проецирует аудио в компактное латентное пространство, что обеспечивает эффективную генерацию на основе диффузии, сохраняя при этом верность звука и поддерживая семантическую структуру в латенте. Для ускорения инференса и улучшения качества генерации используется состязательное пост-обучение. Это позволяет уменьшить количество шагов инференса, одновременно улучшая точность и соответствие промпту. Поддерживается функция инпейнтинга, которая позволяет выполнять точечное редактирование аудио, перерабатывать сегменты трека или продолжать короткие записи.

Модели и их возможности: от звуковых эффектов до полноценных треков

Stability AI выпустила четыре новые модели в рамках семейства Stable Audio 3.0, каждая из которых оптимизирована для конкретных сценариев использования и развертывания:

Stable Audio 3.0 Small SFX — для генерации звуковых эффектов на устройствах, таких как мобильные телефоны и потребительские ноутбуки.
Stable Audio 3.0 Small — для создания полной музыкальной композиции на устройстве. Эта модель, по утверждению Stability AI, является единственной, способной генерировать полноценные музыкальные треки локально. Она генерирует аудио до двух минут.
Stable Audio 3.0 Medium — для более высокой музыкальности, структурной и мелодической согласованности, а также для создания треков длиной до 6 минут 20 секунд. Эта модель, наряду с Large, генерирует аудио более шести минут.
Stable Audio 3.0 Large — обеспечивает наиболее продвинутые музыкальные возможности в семействе и предназначена для музыкальных платформ и креативных приложений, требующих генерации с низкой задержкой и большим объемом.

Модели обучены на лицензированных данных и Creative Commons, что позволяет генерировать музыку и звуки. Скорость генерации быстрая: менее 2 секунд на H200 GPU и несколько секунд на MacBook Pro M4.

Открытые веса и лицензирование для коммерциализации

Веса моделей Stable Audio 3.0 Small SFX, Stable Audio 3.0 Small и Stable Audio 3.0 Medium доступны с открытыми весами на Hugging Face. Stable Audio 3.0 Large доступна через API Stability AI и для самостоятельного хостинга в корпоративных развертываниях. Пользователи владеют своими результатами: их можно свободно распространять и коммерциализировать по лицензии Stability AI Community License. Для организаций с доходом более $1 млн в год доступна Enterprise License, которая включает коммерческое покрытие и юридическую защиту.

Для кастомизации моделей на собственной библиотеке поддерживается LoRa-обучение. Stability AI впервые публикует документацию по LoRa-тренировке вместе с весами 3.0 Small и 3.0 Medium.

Что это значит

Выпуск Stable Audio 3.0 с открытыми весами и гибким лицензированием смещает акцент в генерации аудио в сторону пользовательского контроля и локальных возможностей. Это открывает двери для инженеров и художников, желающих интегрировать передовые возможности генерации музыки и звуков в свои приложения, сохраняя при этом полный контроль над созданными произведениями и их коммерциализацией. Возможность локальной композиции на мобильных устройствах может стать значительным шагом для автономных музыкальных инструментов и креативных приложений.

Ссылки:

Stable Audio 3.0: Композиции на минуты и локально — с лицензией для художников weekly

Новая архитектура для гибкой генерации аудио

Модели и их возможности: от звуковых эффектов до полноценных треков

Открытые веса и лицензирование для коммерциализации

Что это значит

Источники

Оценить материал