AI News Watcher
Wednesday, Jun 17, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 17, 2026 · 1 min read · Google ← Back to feed

Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации daily

Управление темпом, акцентом и тоном через промпт остаётся — задержка до первого байта падает.

Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации
Редакция · Daily briefing

Раньше TTS через Gemini API работал по принципу «подожди, пока всё не готово»: модель генерировала весь аудиофайл, потом отдавала целиком. Теперь streamGenerateContent начинает отдавать аудио сразу в процессе генерации — для модели gemini-3.1-flash-tts-preview.

Что изменилось технически: добавлена поддержка streamGenerateContent через REST и stream: true в Interactions API. Модель та же — gemini-3.1-flash-tts-preview. Фича в статусе preview, не GA.

Потоковая отдача принципиальна для сценариев, где ждать полного рендера неприемлемо: голосовые ассистенты, live-нарратив, длинные тексты — аудиокниги или подкасты на лету. При этом управление стилем не ограничивается параметрами: темп, акцент, тон задаются через обычный промпт на естественном языке.

Несколько ограничений модели стоит держать в голове:

Потоковый TTS убирает главный UX-барьер для реалтаймовых голосовых продуктов на Gemini API. Честный пробел: Google не раскрыла цену за токен или минуту для gemini-3.1-flash-tts-preview — без этого сравнивать с конкурентами по совокупной стоимости невозможно.

Дополнительные источники

  1. https://ai.google.dev/gemini-api/docs/speech-generation#streaming
  2. https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview
  3. s-anand.net
  4. cartesia.ai
  5. google.com

Источники

  1. https://ai.google.dev/gemini-api/docs/changelog#06-17-2026 docs
→ Опубликовано в Telegram: @agentic_ai_news/525