Стоит читать если: вы работаете с агентами, мультимодальными моделями или интересуетесь интеграцией AI-сервисов в облачные решения. Можно пропустить если: вас интересуют только базовые обновления моделей без контекста применения.
Разговор с базой знаний через мультимодальный поиск
Демонстрация концепции. Торстен Шефф представил решение, позволяющее общаться с базами знаний, используя естественный язык. Эта функция была показана как часть более широкого контекста.
Как это работает. В основе демонстрации лежат multimodal-file-search и vision-agents. Это сочетание позволяет моделям обрабатывать информацию не только из текстовых документов, но и из других форматов. Агенты получают способность «видеть» и интерпретировать различные типы данных, что расширяет их возможности при ответах на запросы из баз знаний. Анонс
Управляемые агенты и инструменты для Gemini Live
Управление агентами через API. Фил Шмид (Phil Schmid) продемонстрировал, как запускать управляемых агентов, используя interactions-api. Этот подход упрощает развертывание и оркестрацию агентов в различных сценариях.
Инструменты для Gemini Live. Торстен Шефф показал, как gemini-live может использовать внешние инструменты, например, для генерации музыкальных композиций в стиле реггетон. Это расширяет функциональность моделей, позволяя им выполнять специализированные задачи. Анонс
Облачное размещение. Агентов теперь можно размещать в облаке с помощью простого вызова API. Это позволяет разработчикам легко интегрировать агентские решения в свои облачные инфраструктуры, упрощая масштабирование и управление. Анонс
Итоги Google I/O для ElevenLabs
Первое участие и встречи. Для Торстена Шеффа это было первое участие в конференции Google I/O. Он отметил большое количество встреч с разработчиками и возможность обменяться опытом. Анонс
Выступления и взаимодействия. Шефф также выступал на сцене и участвовал в «вайб-кодинге» с YouTube-креаторами со всего мира и международной прессой. Он подчеркнул гостеприимную атмосферу и встречи с представителями экосистемы Google.
Также за день
- Сотрудничество с @swmansion. Торстен Шефф упомянул о проекте @swmansion, который находится в активной разработке. Анонс
- Gemma для математических задач. Модель gemma была в шутку отмечена как полезный инструмент для решения квадратных трехчленов даже без сотовой связи. Анонс
Что это значит
Усиление мультимодальных возможностей. Активность ElevenLabs на Google I/O демонстрирует фокус на развитии интеграции языковых моделей с различными источниками данных и инструментами. Это может упростить создание более сложных и автономных агентов для инженеров, позволяя им взаимодействовать с информацией в разных форматах и автоматизировать выполнение разнообразных задач.