Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3

Hero illustration: Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3.

Стоит читать если: вы работаете с генерацией или редактированием аудио и ищете способы оптимизировать пайплайны и качество. Можно пропустить если: вам не интересны низкоуровневые аудио-автоэнкодеры и диффузионные модели.

SAME: Сжатие аудио для эффективной генерации

Что это такое: SAME — автоэнкодер на основе трансформера, предназначенный для стереофонической музыки и общего аудио. Он достигает коэффициента временного сжатия 4096x, что примерно вдвое превосходит текущий стандарт. При этом модель сохраняет высокое качество реконструкции и обеспечивает хорошую производительность для последующей генерации.

Архитектура и варианты: Модель построена на сочетании подходов семантической регуляризации с фазочувствительными потерями реконструкции. Такой дизайн архитектуры снижает вычислительные затраты благодаря высокому коэффициенту сжатия и использованию оптимизированных примитивов трансформера. Доступны два варианта: крупный SAME-L и SAME-S, который может быть развернут на CPU.

Использование: SAME можно интегрировать с библиотеками stable-audio-3 для инференса и тонкой настройки, а также с stable-audio-tools для исследовательских задач.

Детали реализации: Модель обучена на ~19,500 часах лицензированного продакшн-аудио из AudioSparx, которое включает 66% музыки, 25% звуковых эффектов и 9% инструментальных треков. Распространяется под Stability AI Community License. Исследовательская работа доступна на arXiv. Модель имеет 0.1B параметров.

Stable Audio 3: Генерация музыки и звуков за секунды

Семейство моделей: Stable Audio 3 — это семейство быстрых латентных диффузионных моделей, включающее варианты small, medium и large. Они предназначены для генерации и редактирования аудио переменной длины.

Возможности: Модели поддерживают инпейтинг, позволяя точечно редактировать аудио и продолжать короткие записи. Они обучены генерировать музыку и звуки менее чем за 2 секунды на GPU H200 и за несколько секунд на MacBook Pro M4.

Технологии: В основе Stable Audio 3 лежит новый семантико-акустический автоэнкодер, который проецирует аудио в компактное латентное пространство (используя подход SAME). Для ускорения инференса и улучшения качества генерации применяется состязательная постобработка. Для текстового кондиционирования используется предварительно обученная модель T5Gemma.

Доступные варианты: Выпущены веса моделей small и medium, способные работать на потребительском оборудовании. Среди них:

stable-audio-3-small-sfx-base
stable-audio-3-medium-base
stable-audio-3-medium
stable-audio-3-small-sfx
stable-audio-3-small-music

Данные и лицензия: Модели обучены на 1,278,902 аудиозаписях, лицензированных от AudioSparx и Freesound. Часть данных Freesound была тщательно отфильтрована с использованием PANNs-теггера и проверки третьей стороной для удаления защищенного авторским правом контента. Модель Stable Audio 3 имеет 0.6B параметров и распространяется под Stability AI Community License. Исследовательская работа также доступна на arXiv.

Что это значит

Новый стек для аудио: Выпуск SAME и Stable Audio 3 указывает на стратегию Stability AI по созданию полноценного и оптимизированного стека для работы с аудио. Инженеры получают доступ к высокоэффективному сжатию и быстрым генеративным моделям, что открывает возможности для создания более сложных и производительных аудиосистем.

Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3 daily

SAME: Сжатие аудио для эффективной генерации

Stable Audio 3: Генерация музыки и звуков за секунды

Что это значит

Ссылки:

Источники

Оценить материал