AI News Watcher
Monday, May 18, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · May 18, 2026 · 3 min read · Stability AI ← Back to feed

Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом daily

Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной длины, а также редактировать существующие записи с помощью инпейнтинга. Она обучена на лицензированных данных и данных Creative Commons, что предоставляет инженерам, работающим с музыкой и звуковыми эффектами, новые возможности.

Hero illustration: Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом.

Редакция · Daily briefing

Стоит читать если: вы работаете с генерацией или редактированием аудио, ищете открытые модели, которые можно запускать на потребительском оборудовании, или интересуетесь новыми архитектурами для аудио. Можно пропустить если: вы не занимаетесь аудио или предпочитаете облачные API без самостоятельного развертывания.

Что такое Stable Audio 3

Новая архитектура для эффективной генерации. Stable Audio 3 — это семейство латентных диффузионных моделей (small, medium, large), предназначенных для генерации и редактирования аудиозаписей переменной длины. Ключевым элементом работы модели является новый семантико-акустический автоэнкодер. Он проецирует аудио в компактное латентное пространство, что позволяет эффективно использовать диффузионные методы генерации, сохраняя при этом точность и семантическую структуру звука.

Пост-тренировка для скорости и качества. Для ускорения инференса и улучшения качества генерации Stable Audio 3 использует пост-тренировку с помощью состязательных сетей. Такой подход сокращает количество шагов инференса, одновременно улучшая точность и соответствие промпту. Модели small и medium семейства могут работать на потребительском оборудовании, что делает их доступными для широкого круга разработчиков.

Возможности и производительность

Генерация и редактирование аудио любой длины. Stable Audio 3 может генерировать аудио продолжительностью в несколько минут. Одной из ключевых функций является поддержка инпейнтинга, позволяющего целенаправленно редактировать аудио или продолжать короткие записи. Это решает проблему избыточных вычислений для коротких звуков, так как нет необходимости генерировать аудио полной длины.

Быстрый инференс на различном оборудовании. Модель Stable Audio 3 способна генерировать музыку и звуки менее чем за 2 секунды на H200 GPU и за несколько секунд на MacBook Pro M4. Это указывает на высокую оптимизацию для различных аппаратных платформ. В Hugging Face доступна одна оптимизированная версия — stable-audio-3-optimized, предназначенная для ускорения на специфическом оборудовании.

Данные для обучения

Обширный и лицензированный набор данных. Stable Audio 3 обучалась на массиве из 1 278 902 аудиозаписей. В этот набор входят 806 284 записи, лицензированные от AudioSparx, и 472 618 записей от Freesound. Часть данных от Freesound лицензирована под CC-0, CC-BY или CCSampling+.

Фильтрация контента. Для предотвращения включения в обучающий набор защищенного авторским правом контента, музыкальные записи от Freesound были идентифицированы с помощью теггера PANNs. Аудио, активировавшее музыкальные теги в течение более 30 секунд (с порогом 0.15), было отправлено на проверку в стороннюю компанию. Все идентифицированные материалы, защищенные авторским правом, были удалены. В итоге, очищенная часть Freesound включает 266 324 записи CC-0, 194 840 CC-BY и 11 454 CC-Sampling+.

Что это значит

Больше свободы для экспериментов. Выпуск Stable Audio 3 как открытой модели, способной работать на потребительском оборудовании, предоставляет инженерам значительную свободу для экспериментов и интеграции в собственные проекты. Это позволяет создавать пользовательские аудио-решения, не полагаясь исключительно на дорогостоящие облачные API. С учетом инпейнтинга и генерации переменной длины, Stable Audio 3 становится универсальным инструментом для прототипирования и создания контента.

Ссылки

Источники

  1. https://huggingface.co/stabilityai/stable-audio-3-optimized docs