Раньше TTS через Gemini API работал по принципу «подожди, пока всё не готово»: модель генерировала весь аудиофайл, потом отдавала целиком. Теперь streamGenerateContent начинает отдавать аудио сразу в процессе генерации — для модели gemini-3.1-flash-tts-preview.
Что изменилось технически: добавлена поддержка streamGenerateContent через REST и stream: true в Interactions API. Модель та же — gemini-3.1-flash-tts-preview. Фича в статусе preview, не GA.
Потоковая отдача принципиальна для сценариев, где ждать полного рендера неприемлемо: голосовые ассистенты, live-нарратив, длинные тексты — аудиокниги или подкасты на лету. При этом управление стилем не ограничивается параметрами: темп, акцент, тон задаются через обычный промпт на естественном языке.
Несколько ограничений модели стоит держать в голове:
- Ввод и вывод — только текст на входе, только аудио на выходе.
- Лимиты токенов — 8 192 входных, 16 384 выходных.
- Недоступно — кэширование, function calling, structured outputs, Live API.
- Знания — срез до января 2025.
Потоковый TTS убирает главный UX-барьер для реалтаймовых голосовых продуктов на Gemini API. Честный пробел: Google не раскрыла цену за токен или минуту для gemini-3.1-flash-tts-preview — без этого сравнивать с конкурентами по совокупной стоимости невозможно.