Стоит читать если: вы работаете с генерацией или редактированием аудио, ищете открытые модели, которые можно запускать на потребительском оборудовании, или интересуетесь новыми архитектурами для аудио. Можно пропустить если: вы не занимаетесь аудио или предпочитаете облачные API без самостоятельного развертывания.
Что такое Stable Audio 3
Новая архитектура для эффективной генерации. Stable Audio 3 — это семейство латентных диффузионных моделей (small, medium, large), предназначенных для генерации и редактирования аудиозаписей переменной длины. Ключевым элементом работы модели является новый семантико-акустический автоэнкодер. Он проецирует аудио в компактное латентное пространство, что позволяет эффективно использовать диффузионные методы генерации, сохраняя при этом точность и семантическую структуру звука.
Пост-тренировка для скорости и качества. Для ускорения инференса и улучшения качества генерации Stable Audio 3 использует пост-тренировку с помощью состязательных сетей. Такой подход сокращает количество шагов инференса, одновременно улучшая точность и соответствие промпту. Модели small и medium семейства могут работать на потребительском оборудовании, что делает их доступными для широкого круга разработчиков.
Возможности и производительность
Генерация и редактирование аудио любой длины. Stable Audio 3 может генерировать аудио продолжительностью в несколько минут. Одной из ключевых функций является поддержка инпейнтинга, позволяющего целенаправленно редактировать аудио или продолжать короткие записи. Это решает проблему избыточных вычислений для коротких звуков, так как нет необходимости генерировать аудио полной длины.
Быстрый инференс на различном оборудовании. Модель Stable Audio 3 способна генерировать музыку и звуки менее чем за 2 секунды на H200 GPU и за несколько секунд на MacBook Pro M4. Это указывает на высокую оптимизацию для различных аппаратных платформ. В Hugging Face доступна одна оптимизированная версия — stable-audio-3-optimized, предназначенная для ускорения на специфическом оборудовании.
Данные для обучения
Обширный и лицензированный набор данных. Stable Audio 3 обучалась на массиве из 1 278 902 аудиозаписей. В этот набор входят 806 284 записи, лицензированные от AudioSparx, и 472 618 записей от Freesound. Часть данных от Freesound лицензирована под CC-0, CC-BY или CCSampling+.
Фильтрация контента. Для предотвращения включения в обучающий набор защищенного авторским правом контента, музыкальные записи от Freesound были идентифицированы с помощью теггера PANNs. Аудио, активировавшее музыкальные теги в течение более 30 секунд (с порогом 0.15), было отправлено на проверку в стороннюю компанию. Все идентифицированные материалы, защищенные авторским правом, были удалены. В итоге, очищенная часть Freesound включает 266 324 записи CC-0, 194 840 CC-BY и 11 454 CC-Sampling+.
Что это значит
Больше свободы для экспериментов. Выпуск Stable Audio 3 как открытой модели, способной работать на потребительском оборудовании, предоставляет инженерам значительную свободу для экспериментов и интеграции в собственные проекты. Это позволяет создавать пользовательские аудио-решения, не полагаясь исключительно на дорогостоящие облачные API. С учетом инпейнтинга и генерации переменной длины, Stable Audio 3 становится универсальным инструментом для прототипирования и создания контента.