ElevenLabs: Больше контроля над агентами и улучшенная транскрипция в реальном времени

Hero illustration: ElevenLabs: Больше контроля над агентами и улучшенная транскрипция в реальном времени.

Стоит читать если: вы разрабатываете на платформе ElevenLabs, используете агентов, инструменты или функции транскрипции речи. Можно пропустить если: вы не используете продукты ElevenLabs в своих проектах.

Также за день

Новое событие WebSocket agent_response_complete. ElevenLabs добавила клиентское событие agent_response_complete для WebSocket-соединений, которое срабатывает, как только ответ агента полностью доставлен. Это позволяет надежно отслеживать завершение хода агента, что полезно для пакетной обработки сообщений, активации по ключевому слову или обновления UI. Важно: событие не генерируется, если выполняются асинхронные задачи инструмента или если агент настроен с turn_timeout или soft_timeout.
Режим речи перед использованием инструмента (Pre-tool speech mode). Появилось новое поле pre_tool_speech (enum: auto, force, off) в конфигурации сервера MCP и переопределениях для каждого инструмента. Оно заменяет устаревший булев force_pre_tool_speech и контролирует, говорит ли агент перед вызовом инструмента. Режим auto решает на основе недавней задержки инструмента, force всегда заставляет говорить, а off отключает эту функцию.
Распределение инструментов учитывает режим выполнения. Узлы распределения инструментов Workflow теперь корректно учитывают execution_mode каждого вложенного инструмента. Если какой-либо инструмент использует POST_TOOL_SPEECH, рабочий процесс будет ждать полной обработки аудио текущего хода перед выполнением распределения.
Таймаут ответа MCP. Добавлено поле response_timeout_secs (целое число, по умолчанию 30, мин. 5, макс. 120) в конфигурацию сервера MCP и переопределения для каждого инструмента, которое задает максимальное время ожидания завершения каждого вызова инструмента MCP.
Контекст доверия агента. В настройки платформы агента добавлено поле trust_context (enum: unknown, low, high, по умолчанию unknown). Значение low предназначено для агентов, работающих с недоверенными внешними участниками, где требуется проверка результатов и ограниченный доступ к инструментам. high — для агентов, обслуживающих владельца, с полным доступом к инструментам. unknown охватывает агентов, созданных до появления этой функции.
Переключатель атрибуции источника. В конфигурацию беседы добавлено булево поле source_attribution (по умолчанию false). При включении, если доступен контент базы знаний, LLM инструктируется сообщать, какие источники были использованы.
Фильтр режима обмена тестами. Конечная точка list tests теперь принимает параметр запроса sharing_mode (all | shared_with_me) для фильтрации тестов и папок.
Иконки инструментов и метаданные выполнения. В схему Tool добавлены поля icons (массив Icon) и execution (ToolExecution). Icon включает src, mimeType и sizes для отображения в UI. ToolExecution.taskSupport (forbidden | optional | required) объявляет, как инструмент участвует в задачах.
Изменение значения по умолчанию для Procedure Compiler. Значение по умолчанию для ProcedureCompilerMode изменено с deterministic на append, а значение llm удалено. Существующие агенты, которые явно установили deterministic, не затронуты.
Метаданные атрибуции RAG и базы знаний. В ConversationHistoryTranscriptCommonModel и ConversationHistoryTranscriptResponseModel добавлены used_static_kb_document_ids (массив строк), а в RagRetrievalInfo — used_chunk_ids. Эти поля показывают, какие именно документы базы знаний и фрагменты RAG способствовали каждому ходу стенограммы.
Рефакторинг динамических переменных. dynamic_variables и dynamic_variable_placeholders теперь ссылаются на унифицированные схемы DynamicVariableValueType-Input / DynamicVariableValueType-Output с более широкой поддержкой вложенных и списочных значений. DynamicVariableAssignment получил поле preserve_native_type.
Новые конечные точки истории изоляции аудио. Представлены две новые конечные точки: List audio isolation history (GET /v1/audio-isolation/history) для постраничного списка генераций и Delete audio isolation history item (DELETE /v1/audio-isolation/history/{history_item_id}).
Scribe Realtime с ключевыми словами и дословным режимом. Веб-сокет Scribe realtime теперь принимает параметр keyterms (до 50 записей по 20 символов каждая) для смещения модели к конкретным терминам, а также булево значение no_verbatim для удаления слов-паразитов, ложных стартов и дизфлюенций из транскрипций. Оба параметра отражаются в событии session_started и доступны в JavaScript SDK, Python SDK и клиентском SDK @elevenlabs/client.
Обновления SDK:
- Python SDK v2.45.0 и v2.44.0 с регенерацией Fern для схем API от 27 и 21 апреля 2026 года. Включают новые конечные точки и исправление установки ноутбука.
- JavaScript SDK v2.45.0 и v2.44.0 с аналогичными обновлениями и поддержкой keyterms и noVerbatim в клиенте Scribe realtime.
- Swift SDK v3.1.4, исправляющий проблему с продолжением публикации микрофона после отключения агента.
- @elevenlabs/client v1.3.1 и v1.3.0. Версия 1.3.1 исправляет проблему интерпретации звука вызова инструмента как речи пользователя. Версия 1.3.0 добавляет поддержку загрузки файла беседы.
- @elevenlabs/react v1.2.1 и v1.2.0, теперь использующие @elevenlabs/[email protected] / @elevenlabs/[email protected].
- @elevenlabs/react-native v1.1.3 и v1.1.2 обновлены до последней версии @elevenlabs/client.
- @elevenlabs/convai-widget-core и @elevenlabs/convai-widget-embed обновлены до версии 0.11.6 (исправление звука вызова инструмента) и 0.11.5 (поддержка загрузки файла беседы).

Что это значит

Эти изменения показывают, что ElevenLabs углубляет работу над управляемостью агентов и качеством транскрипции. Для разработчиков это означает более тонкие настройки поведения AI, улучшенную отладку и больший контроль над тем, как агенты взаимодействуют с пользователями и инструментами. Особое внимание к атрибуции источников и контексту доверия агента указывает на развитие функций безопасности и прозрачности, что критически важно для внедрения AI-агентов в бизнес-процессы.

ElevenLabs: Больше контроля над агентами и улучшенная транскрипция в реальном времени daily

Также за день

Что это значит

Источники

Оценить материал