AI News Watcher
Wednesday, Apr 15, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Apr 15, 2026 · 2 min read · Google ← Back to feed

Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос daily

Google выкатил в предварительный просмотр Gemini 3.1 Flash TTS — модель синтеза речи, которая меняет саму схему работы с озвучкой. Раньше было просто: берёшь голос из списка, отдаёшь текст, получаешь ровную дикторскую читку, повлиять на подачу почти нельзя.

Hero illustration: Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос.

Редакция · Daily briefing

Теперь голосом управляют так, как режиссёр управляет актёром — указаниями прямо в тексте. А найденную «постановку» можно сохранить как код и переиспользовать. И вот это, а не качество звука само по себе, — главное для тех, кто отгружает аудио в продакшен.

Стоит читать если: строите голосовых ассистентов, озвучку или диалоговые сцены и вам нужен повторяемый, управляемый голос. Можно пропустить если: синтез речи не входит в ваш стек.

Сначала — насколько это вообще хорошо звучит

Качество подтверждено не самооценкой Google. На слепом сравнении Artificial Analysis — это тысячи человеческих оценок — модель набрала Elo 1 211 и попала в зону «высокое качество при низкой цене». Дополнительно: нативный мультиголосый диалог и поддержка 70+ языков.

Доступ — в предварительной версии (preview), по аудиториям:

Ссылки: Changelog Gemini API · Анонс (Google DeepMind)

Как именно ей «режиссируют»

Управление держится на аудиометках (audio tags) — командах на обычном языке, встроенных прямо в текст. Ими задают стиль, темп и подачу с тонкой гранулярностью. Ключевая мысль: направление речи живёт в самом тексте, а не в отдельном наборе числовых ручек.

Честная граница источника. Точный синтаксис и полный список тегов в анонсе и фиде не приводятся — они вынесены в Text-to-Speech docs Gemini API. Это предел новости, а не модели: механизм известен (теги в тексте управляют подачей), конкретный словарь — по ссылке выше.

Кресло режиссёра: три уровня контроля

В Google AI Studio управление собрано так, как у режиссёра на площадке:

Инженерная ценность — в третьем пункте. Экспорт-в-код превращает подобранный голос в воспроизводимый артефакт, а не в промпт, который придётся заново нащупывать в следующем релизе.

SynthID

Водяной знак ставится по умолчанию. Всё аудио, сгенерированное моделью, помечено SynthID — он вплетён непосредственно в аудиовыход и позволяет надёжно отличать ИИ-контент. Подробности по подходу к безопасности — в model card.

Что это значит

Подача модели — не «голос стал лучше», а «режиссура голоса стала версионируемым кодом». Для команд, выпускающих мультиперсонажное аудио — игры, IVR, наррация, — это снимает дрейф голоса между релизами: настройка фиксируется как код, а не как устно подобранный промпт.

Открытый вопрос — стабильность словаря тегов. Закладываться на него в проде стоит, только следя за Text-to-Speech docs, а не за анонсом в блоге.

Источники

  1. https://ai.google.dev/gemini-api/docs/changelog#04-15-2026 docs
  2. https://deepmind.google/blog/gemini-3-1-flash-tts-the-next-generation-of-expressive-ai-speech/ blog