Foley Control: Звук в видео без переобучения тяжелых моделей

Hero illustration: Foley Control: Звук в видео без переобучения тяжелых моделей.

Стоит читать если: вы работаете с генерацией аудио по видео, или ищете эффективные методы адаптации больших моделей без полного переобучения. Можно пропустить если: вам не интересны исследования в области мультимодального AI и синтеза звука.

Как Foley Control синхронизирует звук и видео

Foley Control — это облегченный подход к созданию фоли, управляемому видео. Он позволяет объединить возможности существующих, предварительно обученных моделей для генерации аудио и анализа видео, не требуя их полного переобучения. Основная идея заключается в сохранении этих одномодальных моделей «замороженными» и обучении лишь небольшого «кросс-внимательного моста» между ними.

Метод соединяет видео-встраивания V-JEPA2 с замороженной моделью stable-audio-open-dit (текст-в-аудио, T2A). Это достигается за счет вставки компактного видео-кросс-внимания после уже существующего текстового кросс-внимания в T2A модели. Таким образом, текстовые подсказки задают общую семантику генерируемого звука, а видеоинформация уточняет его временную привязку и локальную динамику.

Замороженные базовые модели сохраняют сильные маржинальные характеристики. Это означает, что видеомодель по-прежнему хорошо понимает видео, а аудиомодель отлично генерирует звук на основе текста. Мост между ними обучается только аудио-видео зависимости, необходимой для синхронизации, без необходимости переобучать аудио-приор. Для сокращения потребления памяти и стабилизации обучения токены видео объединяются перед кондиционированием.

Преимущества и модульность подхода

Foley Control демонстрирует конкурентное временное и семантическое выравнивание. Это достигается при меньшем количестве обучаемых параметров по сравнению с другими мультимодальными системами. Сохраняется управляемость через текстовые подсказки и модульность, удобная для продакшена: можно менять или обновлять кодировщики или T2A-модель без сквозного переобучения всей системы.

Архитектура моста потенциально применима к другим аудиомодальностям. Хотя текущее исследование сосредоточено на видео-к-фоли, тот же дизайн моста может быть распространен на генерацию других видов аудио, например, речи.

Что это значит

Foley Control открывает путь к более эффективной и гибкой мультимодальной генерации. Для инженеров это означает возможность создавать сложные аудио-визуальные системы, используя готовые компоненты и избегая дорогостоящего полного переобучения. Это снижает порог входа и ускоряет итерации в области синтеза звука и видео, делая продвинутые инструменты более доступными.

Ссылки

Анонс

Foley Control: Звук в видео без переобучения тяжелых моделей daily

Как Foley Control синхронизирует звук и видео

Преимущества и модульность подхода

Что это значит

Ссылки

Источники

Оценить материал