Создание сложного голосового AI-агента обычно требует интеграции нескольких сервисов: для распознавания речи, языковой модели и синтеза голоса. XAI упростила этот процесс, выпустив Voice Agent Builder — платформу без кода, которая объединяет все необходимые компоненты в едином интерфейсе на базе своей модели Grok Voice.
Платформа Voice Agent Builder предназначена для разработчиков и операторов, которым нужны высокопроизводительные голосовые агенты без необходимости строить всю вспомогательную инфраструктуру с нуля. Она предлагает готовые функции, включая телефонию, извлечение знаний, инструменты, защитные механизмы (guardrails) и мониторинг. Пользователи могут переносить существующие телефонные номера по SIP или подключать свои инструменты через API.
В отличие от большинства голосовых стеков, которые собирают из трёх отдельных API (распознавание речи, языковая модель, синтез речи), каждый из которых может быть от разных поставщиков, Voice Agent Builder представляет собой единый интерфейс. Он работает на Grok Voice — модели, тесно интегрированной с платформой, что позволяет избежать проблем с задержками, стоимостью и отказами, свойственными разрозненным системам.
Модель Grok Voice специально обучалась на «самых сложных звонках», которые xAI смогла найти. Это включает аудио низкого качества, фоновый шум, сильные акценты, прерывания и ситуации, когда абоненты меняют своё решение на середине фразы. Модель способна обрабатывать неясные запросы и работать с десятками инструментов на более чем 25 языках.
На бенчмарке τ-voice Bench, который оценивает полнодуплексные голосовые агенты в реалистичных условиях, Grok Voice Think Fast 1.0 показала лучшие результаты, чем конкуренты:
- Grok Voice Think Fast 1.0 — 67.3%
- Gemini 3.1 Flash Live — 43.8%
- GPT Realtime 1.5 — 35.3%
Создать работающего агента можно за две минуты. Достаточно описать желаемый ход разговора простым языком, затем прикрепить необходимые документы, инструменты и задать правила поведения.
Платформа предлагает широкий набор функциональных возможностей:
- База знаний — загрузка документов в различных форматах (текст, Markdown, Word, PowerPoint, Excel, HTML, JSON) для извлечения информации во время звонков. Документы организуются в коллекции, которые можно привязывать к нескольким агентам.
- Инструменты и коннекторы — интеграция с Google Calendar, Outlook Calendar, почтовыми провайдерами, Linear, Notion, Google Drive, OneDrive. Агент может выполнять API-запросы для проверки статуса заказа или оформления возврата. Доступны веб-поиск и X-поиск.
- Передача человеку — возможность перенаправить звонок команде, если требуется вмешательство оператора.
- Настройка голоса и номера — выбор из 80+ встроенных голосов или клонирование голоса бренда (требуется около двух минут аудио). В аккаунт входит бесплатный телефонный номер, поддерживается подключение существующих номеров по SIP.
- Мониторинг и контроль — запись и транскрибирование каждого звонка, просмотр использованных инструментов. Guardrails позволяют ограничивать действия агента, например, запрещая считывать номера карт.
Ценовая политика xAI заявлена как простая и прозрачная. Агенты тарифицируются по ставке API — $0.05 за минуту аудио, включая голоса и без отдельной платы за платформу. Использование бесплатного телефонного номера добавляет $0.01 за минуту. Это контрастирует с распространённой практикой, когда каждый компонент голосового стека (распознавание, рассуждение, синтез) оплачивается отдельно.
XAI Voice Agent Builder предлагает интегрированное решение для создания голосовых агентов, которое пытается решить основные проблемы разрозненных голосовых стеков и низкого качества обработки реальных звонков. Простота развертывания и заявленная производительность модели Grok Voice могут ускорить внедрение голосовых AI-систем. Однако, как и любой бета-продукт, платформа ещё должна доказать свою стабильность и масштабируемость в условиях реальной производственной нагрузки.