Собрать голосового агента раньше означало склеивать несколько API от разных провайдеров. ElevenLabs перевёл в общий доступ унифицированный API, где модели, голос и агентная логика живут в одном интерфейсе — и объявил его production-ready.
Единый API покрывает весь стек: распознавание речи (STT), синтез речи (TTS), управление очерёдностью реплик (turn-taking), LLM и агентные workflows. Для инженера ключевое — смена провайдера или модели требует минимальных правок в коде, а при сбое одного LLM система автоматически переключается на резервный (LLM cascading).
Нативно поддерживаются собственные hosted-модели ElevenLabs, Google Gemini начиная с 2.5 Flash и OpenAI GPT-5/GPT-5.5. Собственные модели — Qwen3.6-35B и Qwen3.5-397B — работают в той же инфраструктуре, что и голосовой стек. По данным ElevenLabs, это даёт Time To First Sentence менее 150 мс и примерно треть стоимости по сравнению с вызовами внешних провайдеров.
Платформа включает инструменты для работы в production-масштабе:
- Тесты и эксперименты — встроенные инструменты для оценки поведения агента.
- OpenTelemetry traces — трассировка вызовов для отладки.
- Аналитика разговоров — мониторинг качества диалогов.
- Cost optimization — контроль расходов по моделям.
GA-статус закрывает главную боль при сборке голосовых агентов — разрозненность провайдеров. Честный пробел: ElevenLabs не раскрыл конкретные SLA, лимиты на burst и реальные цифры задержки в production-условиях — пока есть только лабораторный бенчмарк sub-150ms.