ElevenLabs открыл единый API для голосовых агентов всем разработчикам

ElevenLabs открыл единый API для голосовых агентов всем разработчикам daily

Один интерфейс покрывает распознавание речи, синтез, LLM и агентную логику — включая собственные модели и сторонние GPT-5, Gemini, Qwen.

Собрать голосового агента раньше означало склеивать несколько API от разных провайдеров. ElevenLabs перевёл в общий доступ унифицированный API, где модели, голос и агентная логика живут в одном интерфейсе — и объявил его production-ready.

Единый API покрывает весь стек: распознавание речи (STT), синтез речи (TTS), управление очерёдностью реплик (turn-taking), LLM и агентные workflows. Для инженера ключевое — смена провайдера или модели требует минимальных правок в коде, а при сбое одного LLM система автоматически переключается на резервный (LLM cascading).

Нативно поддерживаются собственные hosted-модели ElevenLabs, Google Gemini начиная с 2.5 Flash и OpenAI GPT-5/GPT-5.5. Собственные модели — Qwen3.6-35B и Qwen3.5-397B — работают в той же инфраструктуре, что и голосовой стек. По данным ElevenLabs, это даёт Time To First Sentence менее 150 мс и примерно треть стоимости по сравнению с вызовами внешних провайдеров.

Платформа включает инструменты для работы в production-масштабе:

Тесты и эксперименты — встроенные инструменты для оценки поведения агента.
OpenTelemetry traces — трассировка вызовов для отладки.
Аналитика разговоров — мониторинг качества диалогов.
Cost optimization — контроль расходов по моделям.

GA-статус закрывает главную боль при сборке голосовых агентов — разрозненность провайдеров. Честный пробел: ElevenLabs не раскрыл конкретные SLA, лимиты на burst и реальные цифры задержки в production-условиях — пока есть только лабораторный бенчмарк sub-150ms.

→ Опубликовано в Telegram: @agentic_ai_news/560

ElevenLabs открыл единый API для голосовых агентов всем разработчикам daily

Дополнительные источники

Источники

Оценить материал