Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос

Hero illustration: Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос.

Теперь голосом управляют так, как режиссёр управляет актёром — указаниями прямо в тексте. А найденную «постановку» можно сохранить как код и переиспользовать. И вот это, а не качество звука само по себе, — главное для тех, кто отгружает аудио в продакшен.

Стоит читать если: строите голосовых ассистентов, озвучку или диалоговые сцены и вам нужен повторяемый, управляемый голос. Можно пропустить если: синтез речи не входит в ваш стек.

Сначала — насколько это вообще хорошо звучит

Качество подтверждено не самооценкой Google. На слепом сравнении Artificial Analysis — это тысячи человеческих оценок — модель набрала Elo 1 211 и попала в зону «высокое качество при низкой цене». Дополнительно: нативный мультиголосый диалог и поддержка 70+ языков.

Доступ — в предварительной версии (preview), по аудиториям:

Разработчики — через Gemini API и Google AI Studio.
Enterprise — на Vertex AI.
Workspace — через Google Vids.

Ссылки: Changelog Gemini API · Анонс (Google DeepMind)

Как именно ей «режиссируют»

Управление держится на аудиометках (audio tags) — командах на обычном языке, встроенных прямо в текст. Ими задают стиль, темп и подачу с тонкой гранулярностью. Ключевая мысль: направление речи живёт в самом тексте, а не в отдельном наборе числовых ручек.

Честная граница источника. Точный синтаксис и полный список тегов в анонсе и фиде не приводятся — они вынесены в Text-to-Speech docs Gemini API. Это предел новости, а не модели: механизм известен (теги в тексте управляют подачей), конкретный словарь — по ссылке выше.

Кресло режиссёра: три уровня контроля

В Google AI Studio управление собрано так, как у режиссёра на площадке:

Постановка сцены. Задаёте окружение и конкретные указания к диалогу. Этот «контекст мира» удерживает персонажей в роли и заставляет естественно реагировать друг на друга на протяжении нескольких реплик.
Уровень говорящего. Персонажей кастуют через уникальные Audio Profiles; Director's Notes переключают темп, тон и акцент; инлайновые теги меняют выражение прямо посреди фразы.
Экспорт без потерь. Готовая настройка выгружается как код Gemini API — те же параметры дают тот же голос в другом проекте и на другой платформе.

Инженерная ценность — в третьем пункте. Экспорт-в-код превращает подобранный голос в воспроизводимый артефакт, а не в промпт, который придётся заново нащупывать в следующем релизе.

SynthID

Водяной знак ставится по умолчанию. Всё аудио, сгенерированное моделью, помечено SynthID — он вплетён непосредственно в аудиовыход и позволяет надёжно отличать ИИ-контент. Подробности по подходу к безопасности — в model card.

Что это значит

Подача модели — не «голос стал лучше», а «режиссура голоса стала версионируемым кодом». Для команд, выпускающих мультиперсонажное аудио — игры, IVR, наррация, — это снимает дрейф голоса между релизами: настройка фиксируется как код, а не как устно подобранный промпт.

Открытый вопрос — стабильность словаря тегов. Закладываться на него в проде стоит, только следя за Text-to-Speech docs, а не за анонсом в блоге.

Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос daily

Сначала — насколько это вообще хорошо звучит

Как именно ей «режиссируют»

Кресло режиссёра: три уровня контроля

SynthID

Что это значит

Источники

Оценить материал