Полностью контролировать стиль и настроение генерируемого аудио до сих пор было сложно: модели обычно создавали звук по тексту, но без тонкой настройки. Теперь Runway предлагает API Seed Audio 1.0, который позволяет задавать тон вывода через аудио-образцы. Это шаг к созданию более связных и выразительных аудио-сцен.
API Seed Audio 1.0 позволяет генерировать как речь, так и различные звуковые эффекты, используя текстовые описания. Главное отличие — возможность предоставить аудио-ссылку до 30 секунд. Этот образец задаёт стиль, тон или настроение для генерируемого вывода, помогая добиться желаемого звучания.
Модель способна создать до 120 секунд аудио. Результат можно получить в форматах WAV, MP3 и Ogg Opus. Стоимость генерации составляет 0.25 кредита в секунду, с минимальной ценой за вызов в 5 кредитов. Для работы доступны отдельные конечные точки для text to speech и sound effect.
Конкуренты, такие как Meta AudioGen, также предлагают генерацию звуков по тексту, но с ограничением в 5 секунд и без явной опции использования аудио-образцов для стилизации. ElevenLabs, в свою очередь, фокусируется на генерации звуковых эффектов по другой ценовой модели ($0.12 за генерацию), но также не упоминает о референсных аудио. Это подчёркивает новизну подхода Runway в части контроля над стилем.
Runway, известная своими возможностями в работе с видео, теперь расширяет мультимодальный инструментарий на аудио. Возможность задавать тон генерации через аудио-образцы может стать ключевой для разработчиков, которым нужна не просто генерация, а когерентное звучание в сложных сценах. Остаётся оценить, насколько эффективно модель интерпретирует референсные аудио в реальных проектах.