AI News Watcher
Wednesday, May 20, 2026  ·  Weekly briefing
Feed Telegram
Weekly briefing · By AI News Watcher · May 20, 2026 · 3 min read · Stability AI ← Back to feed

Stable Audio 3.0: Композиции на минуты и локально — с лицензией для художников weekly

Stability AI представила Stable Audio 3.0, семейство моделей для генерации и редактирования аудио, которое меняет подход к созданию музыки. Теперь доступны полноценные композиции переменной длины, а веса некоторых моделей открыты для запуска даже на потребительском оборудовании, что позволяет художникам полностью владеть своими результатами и коммерциализировать их.

Hero illustration: Stable Audio 3.0: Композиции на минуты и локально — с лицензией для художников.

Редакция · Weekly briefing

Стоит читать если: вы работаете с генерацией музыки или звуковых эффектов, интересуетесь открытыми моделями и возможностью коммерческого использования. Можно пропустить если: ваша задача не связана с аудио или вы ищете только проприетарные решения для API.

Новая архитектура для гибкой генерации аудио

Stable Audio 3.0 — это семейство быстрых латентных диффузионных моделей, предназначенных для генерации и редактирования аудио переменной длины. Эти модели способны создавать аудио длительностью до нескольких минут, что критично для производства полноценных композиций. В основе архитектуры лежит новый семантико-акустический автоэнкодер SAME (Semantically-Aligned Music Autoencoder). SAME проецирует аудио в компактное латентное пространство, что обеспечивает эффективную генерацию на основе диффузии, сохраняя при этом верность звука и поддерживая семантическую структуру в латенте. Для ускорения инференса и улучшения качества генерации используется состязательное пост-обучение. Это позволяет уменьшить количество шагов инференса, одновременно улучшая точность и соответствие промпту. Поддерживается функция инпейнтинга, которая позволяет выполнять точечное редактирование аудио, перерабатывать сегменты трека или продолжать короткие записи.

Модели и их возможности: от звуковых эффектов до полноценных треков

Stability AI выпустила четыре новые модели в рамках семейства Stable Audio 3.0, каждая из которых оптимизирована для конкретных сценариев использования и развертывания:

Модели обучены на лицензированных данных и Creative Commons, что позволяет генерировать музыку и звуки. Скорость генерации быстрая: менее 2 секунд на H200 GPU и несколько секунд на MacBook Pro M4.

Открытые веса и лицензирование для коммерциализации

Веса моделей Stable Audio 3.0 Small SFX, Stable Audio 3.0 Small и Stable Audio 3.0 Medium доступны с открытыми весами на Hugging Face. Stable Audio 3.0 Large доступна через API Stability AI и для самостоятельного хостинга в корпоративных развертываниях. Пользователи владеют своими результатами: их можно свободно распространять и коммерциализировать по лицензии Stability AI Community License. Для организаций с доходом более $1 млн в год доступна Enterprise License, которая включает коммерческое покрытие и юридическую защиту.

Для кастомизации моделей на собственной библиотеке поддерживается LoRa-обучение. Stability AI впервые публикует документацию по LoRa-тренировке вместе с весами 3.0 Small и 3.0 Medium.

Что это значит

Выпуск Stable Audio 3.0 с открытыми весами и гибким лицензированием смещает акцент в генерации аудио в сторону пользовательского контроля и локальных возможностей. Это открывает двери для инженеров и художников, желающих интегрировать передовые возможности генерации музыки и звуков в свои приложения, сохраняя при этом полный контроль над созданными произведениями и их коммерциализацией. Возможность локальной композиции на мобильных устройствах может стать значительным шагом для автономных музыкальных инструментов и креативных приложений.


Ссылки:

Источники

  1. https://stability.ai/research/stable-audio-3 news
  2. https://huggingface.co/stabilityai/stable-audio-3-optimized docs
  3. https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models news