Стоит читать если: вы работаете с генерацией или редактированием аудио и ищете способы оптимизировать пайплайны и качество. Можно пропустить если: вам не интересны низкоуровневые аудио-автоэнкодеры и диффузионные модели.
SAME: Сжатие аудио для эффективной генерации
Что это такое: SAME — автоэнкодер на основе трансформера, предназначенный для стереофонической музыки и общего аудио. Он достигает коэффициента временного сжатия 4096x, что примерно вдвое превосходит текущий стандарт. При этом модель сохраняет высокое качество реконструкции и обеспечивает хорошую производительность для последующей генерации.
Архитектура и варианты: Модель построена на сочетании подходов семантической регуляризации с фазочувствительными потерями реконструкции. Такой дизайн архитектуры снижает вычислительные затраты благодаря высокому коэффициенту сжатия и использованию оптимизированных примитивов трансформера. Доступны два варианта: крупный SAME-L и SAME-S, который может быть развернут на CPU.
Использование: SAME можно интегрировать с библиотеками stable-audio-3 для инференса и тонкой настройки, а также с stable-audio-tools для исследовательских задач.
Детали реализации: Модель обучена на ~19,500 часах лицензированного продакшн-аудио из AudioSparx, которое включает 66% музыки, 25% звуковых эффектов и 9% инструментальных треков. Распространяется под Stability AI Community License. Исследовательская работа доступна на arXiv. Модель имеет 0.1B параметров.
Stable Audio 3: Генерация музыки и звуков за секунды
Семейство моделей: Stable Audio 3 — это семейство быстрых латентных диффузионных моделей, включающее варианты small, medium и large. Они предназначены для генерации и редактирования аудио переменной длины.
Возможности: Модели поддерживают инпейтинг, позволяя точечно редактировать аудио и продолжать короткие записи. Они обучены генерировать музыку и звуки менее чем за 2 секунды на GPU H200 и за несколько секунд на MacBook Pro M4.
Технологии: В основе Stable Audio 3 лежит новый семантико-акустический автоэнкодер, который проецирует аудио в компактное латентное пространство (используя подход SAME). Для ускорения инференса и улучшения качества генерации применяется состязательная постобработка. Для текстового кондиционирования используется предварительно обученная модель T5Gemma.
Доступные варианты: Выпущены веса моделей small и medium, способные работать на потребительском оборудовании. Среди них:
- stable-audio-3-small-sfx-base
- stable-audio-3-medium-base
- stable-audio-3-medium
- stable-audio-3-small-sfx
- stable-audio-3-small-music
Данные и лицензия: Модели обучены на 1,278,902 аудиозаписях, лицензированных от AudioSparx и Freesound. Часть данных Freesound была тщательно отфильтрована с использованием PANNs-теггера и проверки третьей стороной для удаления защищенного авторским правом контента. Модель Stable Audio 3 имеет 0.6B параметров и распространяется под Stability AI Community License. Исследовательская работа также доступна на arXiv.
Что это значит
Новый стек для аудио: Выпуск SAME и Stable Audio 3 указывает на стратегию Stability AI по созданию полноценного и оптимизированного стека для работы с аудио. Инженеры получают доступ к высокоэффективному сжатию и быстрым генеративным моделям, что открывает возможности для создания более сложных и производительных аудиосистем.