Теперь голосом управляют так, как режиссёр управляет актёром — указаниями прямо в тексте. А найденную «постановку» можно сохранить как код и переиспользовать. И вот это, а не качество звука само по себе, — главное для тех, кто отгружает аудио в продакшен.
Стоит читать если: строите голосовых ассистентов, озвучку или диалоговые сцены и вам нужен повторяемый, управляемый голос. Можно пропустить если: синтез речи не входит в ваш стек.
Сначала — насколько это вообще хорошо звучит
Качество подтверждено не самооценкой Google. На слепом сравнении Artificial Analysis — это тысячи человеческих оценок — модель набрала Elo 1 211 и попала в зону «высокое качество при низкой цене». Дополнительно: нативный мультиголосый диалог и поддержка 70+ языков.
Доступ — в предварительной версии (preview), по аудиториям:
- Разработчики — через Gemini API и Google AI Studio.
- Enterprise — на Vertex AI.
- Workspace — через Google Vids.
Ссылки: Changelog Gemini API · Анонс (Google DeepMind)
Как именно ей «режиссируют»
Управление держится на аудиометках (audio tags) — командах на обычном языке, встроенных прямо в текст. Ими задают стиль, темп и подачу с тонкой гранулярностью. Ключевая мысль: направление речи живёт в самом тексте, а не в отдельном наборе числовых ручек.
Честная граница источника. Точный синтаксис и полный список тегов в анонсе и фиде не приводятся — они вынесены в Text-to-Speech docs Gemini API. Это предел новости, а не модели: механизм известен (теги в тексте управляют подачей), конкретный словарь — по ссылке выше.
Кресло режиссёра: три уровня контроля
В Google AI Studio управление собрано так, как у режиссёра на площадке:
- Постановка сцены. Задаёте окружение и конкретные указания к диалогу. Этот «контекст мира» удерживает персонажей в роли и заставляет естественно реагировать друг на друга на протяжении нескольких реплик.
- Уровень говорящего. Персонажей кастуют через уникальные Audio Profiles; Director's Notes переключают темп, тон и акцент; инлайновые теги меняют выражение прямо посреди фразы.
- Экспорт без потерь. Готовая настройка выгружается как код Gemini API — те же параметры дают тот же голос в другом проекте и на другой платформе.
Инженерная ценность — в третьем пункте. Экспорт-в-код превращает подобранный голос в воспроизводимый артефакт, а не в промпт, который придётся заново нащупывать в следующем релизе.
SynthID
Водяной знак ставится по умолчанию. Всё аудио, сгенерированное моделью, помечено SynthID — он вплетён непосредственно в аудиовыход и позволяет надёжно отличать ИИ-контент. Подробности по подходу к безопасности — в model card.
Что это значит
Подача модели — не «голос стал лучше», а «режиссура голоса стала версионируемым кодом». Для команд, выпускающих мультиперсонажное аудио — игры, IVR, наррация, — это снимает дрейф голоса между релизами: настройка фиксируется как код, а не как устно подобранный промпт.
Открытый вопрос — стабильность словаря тегов. Закладываться на него в проде стоит, только следя за Text-to-Speech docs, а не за анонсом в блоге.