Gemini 3.5 Live Translate переводит голос в реальном времени на 70+ языков

Gemini 3.5 Live Translate переводит голос в реальном времени на 70+ языков daily

Без очерёдности реплик и без поддержки инструментов — чистый переводчик-поток, не ассистент.

Большинство голосовых AI-моделей ждут паузы, чтобы ответить. Gemini 3.5 Live Translate работает иначе: переводит непрерывно, пока человек говорит. Google открыла API в preview через Gemini Live API.

Главное для инженера — это не функция поверх существующего агента, а отдельная модель с другой архитектурой. Google явно разграничила Live Agent и Live Translation: агент слушает, рассуждает, вызывает функции, работает с видео и текстом. Переводчик — только аудио на входе, аудио на выходе. Никаких инструментов, никаких системных инструкций, никакого видео. Это сознательный компромисс: убрать всё, что добавляет задержку, ради непрерывного потока без пауз.

Агент обрабатывает реплики по очереди — ждёт паузы, определяет намерение, обрабатывает прерывания. Переводчик не ждёт конца фразы: он обрабатывает поток непрерывно, пока говорит источник.

Технически старт выглядит просто. Модель — gemini-3.5-live-translate-preview; конфигурация сводится к двум параметрам: target_language_code (целевой язык) и флаг echo_target_language. Поддерживается 70+ языков. Попробовать можно в Google AI Studio или через пример приложения на GitHub.

Google делает ставку на то, что для реального перевода нужна отдельная, упрощённая модель — без агентской логики, которая неизбежно добавляет задержку. Логика понятна, но практические детали пока закрыты: Google не раскрыла ценообразование preview, лимиты на поток и реальные показатели задержки в продакшн-условиях.

→ Опубликовано в Telegram: @agentic_ai_news/547

Gemini 3.5 Live Translate переводит голос в реальном времени на 70+ языков daily

Дополнительные источники

Источники

Оценить материал