Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации

Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации daily

Управление темпом, акцентом и тоном через промпт остаётся — задержка до первого байта падает.

Раньше TTS через Gemini API работал по принципу «подожди, пока всё не готово»: модель генерировала весь аудиофайл, потом отдавала целиком. Теперь streamGenerateContent начинает отдавать аудио сразу в процессе генерации — для модели gemini-3.1-flash-tts-preview.

Что изменилось технически: добавлена поддержка streamGenerateContent через REST и stream: true в Interactions API. Модель та же — gemini-3.1-flash-tts-preview. Фича в статусе preview, не GA.

Потоковая отдача принципиальна для сценариев, где ждать полного рендера неприемлемо: голосовые ассистенты, live-нарратив, длинные тексты — аудиокниги или подкасты на лету. При этом управление стилем не ограничивается параметрами: темп, акцент, тон задаются через обычный промпт на естественном языке.

Несколько ограничений модели стоит держать в голове:

Ввод и вывод — только текст на входе, только аудио на выходе.
Лимиты токенов — 8 192 входных, 16 384 выходных.
Недоступно — кэширование, function calling, structured outputs, Live API.
Знания — срез до января 2025.

Потоковый TTS убирает главный UX-барьер для реалтаймовых голосовых продуктов на Gemini API. Честный пробел: Google не раскрыла цену за токен или минуту для gemini-3.1-flash-tts-preview — без этого сравнивать с конкурентами по совокупной стоимости невозможно.

→ Опубликовано в Telegram: @agentic_ai_news/525

Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации daily

Дополнительные источники

Источники

Оценить материал