Перевод спортивного репортажа в реальном времени обычно убивает интонацию — голос становится ровным и безжизненным. VisionAgents.ai показала демо, где Gemini Live Translate переводит комментарий футбольного матча, сохраняя эмоциональный накал оригинала.
В основе демо — два слоя. Roboflow RF-DETR детектирует игроков и мяч покадрово: когда мяч исчезает в быстрой игре и снова появляется в кадре, система считает это событием и отправляет сигнал дальше. Дальше — Gemini Live, который генерирует комментарий и переводит его. Заявленная задержка — менее 500 мс на глобальной edge-сети Stream.
Для инженера здесь есть отдельный интерес: VisionAgents устроен так, что Gemini Live можно заменить на OpenAI Realtime одной строкой кода — провайдеры подключены как взаимозаменяемые модули. ElevenLabs подключён как TTS-провайдер; по данным самого Stream (ноябрь 2025), преднастроенная интеграция сократила объём кода озвучки с 400 строк до 40.
Интересно здесь не то, что перевод работает в реальном времени, — а то, что эмоциональная интонация рассматривается как отдельный сигнал, который нужно явно сохранять. Это меняет требования к TTS и переводным моделям: недостаточно передать слова, нужно передать градус. Как именно Gemini удерживает интонацию при переводе — постобработка, отдельная модель или свойство самого Live API — вендор не раскрыл.