Обычно видеопродакшн — это цепочка инструментов и ручных шагов. ElevenLabs показала, как агент на базе Gemini Interactions API делает всё сам: ищет информацию, генерирует разметку и отдаёт готовый ролик одним вызовом.
Технически это выглядит так: один POST-запрос к управляемому агенту запускает полный пайплайн. Агент работает в изолированной Linux-песочнице, использует open-source фреймворк HyperFrames — он превращает HTML/CSS в детерминированный MP4 покадрово — исследует тему и рендерит видео без участия человека. Один и тот же HTML-вход всегда даёт идентичный результат, что важно для автоматизированных пайплайнов.
Это стало возможным благодаря Gemini Interactions API (сейчас в бета), который Google проектировал именно под агентные сценарии. Ключевые возможности:
- Серверное хранение истории — многоходовые диалоги через
previous_interaction_idбез ручного управления контекстом. - Фоновые задачи — долгие операции уходят в фон через
background=true, не блокируя вызывающий код. - Типизированные шаги выполнения — промежуточные события агента видны и отлаживаемы.
Google явно обозначил: новые агентные возможности будут выходить только через Interactions API, а не через старый generateContent. Это означает, что интеграции, построенные сейчас на старом API, постепенно окажутся вне новых фич.
В том же анонсе Thorsten Schaeff, руководитель по работе с разработчиками ElevenLabs, сообщил ещё о двух вещах: агентами ElevenLabs теперь можно управлять через Google AI Studio, а сами агенты получили интеграцию с Google Colab.
Связка ElevenLabs + Gemini Interactions API + HyperFrames — первый публичный пример того, как медиа-вендор встраивается в Google-стек на уровне агентной оркестрации, а не просто как инструмент с одной функцией. Пока нет данных ни о задержке такого пайплайна, ни о его стоимости. Неизвестно и то, доступно ли это всем разработчикам прямо сейчас или речь о закрытом превью.