Большинство голосовых AI-моделей ждут паузы, чтобы ответить. Gemini 3.5 Live Translate работает иначе: переводит непрерывно, пока человек говорит. Google открыла API в preview через Gemini Live API.
Главное для инженера — это не функция поверх существующего агента, а отдельная модель с другой архитектурой. Google явно разграничила Live Agent и Live Translation: агент слушает, рассуждает, вызывает функции, работает с видео и текстом. Переводчик — только аудио на входе, аудио на выходе. Никаких инструментов, никаких системных инструкций, никакого видео. Это сознательный компромисс: убрать всё, что добавляет задержку, ради непрерывного потока без пауз.
Агент обрабатывает реплики по очереди — ждёт паузы, определяет намерение, обрабатывает прерывания. Переводчик не ждёт конца фразы: он обрабатывает поток непрерывно, пока говорит источник.
Технически старт выглядит просто. Модель — gemini-3.5-live-translate-preview; конфигурация сводится к двум параметрам: target_language_code (целевой язык) и флаг echo_target_language. Поддерживается 70+ языков. Попробовать можно в Google AI Studio или через пример приложения на GitHub.
Google делает ставку на то, что для реального перевода нужна отдельная, упрощённая модель — без агентской логики, которая неизбежно добавляет задержку. Логика понятна, но практические детали пока закрыты: Google не раскрыла ценообразование preview, лимиты на поток и реальные показатели задержки в продакшн-условиях.