Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности

Hero illustration: Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности.

Стоит читать если: вы разрабатываете или планируете развертывать голосовых AI-агентов на нескольких языках и ищете способ упростить архитектуру и улучшить производительность. Можно пропустить если: ваши текущие проекты строго моноязычны или не требуют разговорного AI в реальном времени.

Flux Multilingual — универсальное решение для многоязычных агентов

Традиционные подходы к созданию многоязычных голосовых систем часто требовали сборки множества компонентов: отдельных моделей, логики маршрутизации и слоев для обнаружения языков. Каждый новый язык увеличивал нагрузку на инфраструктуру и усложнял поддержку, часто приводя к компромиссам между точностью и задержкой. Deepgram flux-multilingual решает эту проблему, объединяя все в одну разговорную модель. Вместо управления сложной системой, разработчики получают единый API, который обрабатывает распознавание речи, определение смены говорящего (turn detection), обнаружение языка и переключение кодов (code-switching) в реальном времени.

Модель теперь поддерживает 10 языков: английский, испанский, французский, немецкий, хинди, русский, португальский, японский, итальянский и голландский. Если вы уже используете Flux, переход на многоязычную версию — это изменение одной строки: flux-general-en меняется на flux-general-multi. Стоимость использования Flux Multilingual эквивалентна стоимости flux-general-en, что упрощает финансовое планирование без дополнительных затрат.

Точность моноязычных систем и гибкое управление языком

Flux Multilingual обеспечивает точность, сопоставимую с выделенными моноязычными моделями. Deepgram провел бенчмаркинг на реальных производственных аудиозаписях по всем поддерживаемым языкам, измеряя коэффициент ошибок по словам (WER). По этим метрикам Flux Multilingual показал результаты, соответствующие лучшим в своем классе для большинства языков, включая английский, испанский, немецкий, французский, португальский и хинди.

Разработчики получают точный контроль над обработкой языка через специальный параметр. Этот параметр позволяет модели:

Максимизировать точность, указывая один ожидаемый язык.
Ограничить обнаружение для известного набора языков без необходимости сложной логики маршрутизации.
Автоматически обнаруживать языки, когда они неизвестны.
Обрабатывать смешанные разговоры с нативным переключением кодов, например, когда фраза содержит слова из разных языков ("I need help with my cuenta").

В отличие от традиционных систем, где смена языка в предложении может приводить к ошибкам или задержкам, Flux Multilingual обрабатывает это нативно, без переключения моделей или дополнительных слоев логики. Модель также возвращает массив языков для каждого речевого отрезка, предоставляя гранулярность по каждому повороту разговора. Настройки языка можно менять в середине разговора без разрыва соединения, что позволяет системам сначала определить язык звонящего, а затем оптимизировать под него дальнейшее взаимодействие. Это открывает паттерн «Обнаружить, затем зафиксировать» (Detect-then-Lock), когда агент сначала подключается без указания языка или с широким набором подсказок для автоматического определения, а затем фиксирует обнаруженный язык для оставшейся части разговора через сообщения Configure, обеспечивая максимальную точность. Поле с информацией о языках в событиях TurnInfo предоставляет информацию о фактически обнаруженных языках, что позволяет динамически адаптировать последующую обработку, например, выбор соответствующего голоса TTS или языка LLM-промпта.

Сверхнизкая задержка и стабильная работа

Flux Multilingual устраняет традиционные компромиссы между задержкой, точностью и естественностью разговорного потока. Модель сохраняет низкую задержку стриминга для взаимодействия в реальном времени, при этом обрабатывая перебивания (interruption handling) нативно.

Deepgram измерял производительность, оценивая точность и задержку определения конца реплики (End-of-Turn, EoT) на реальных данных. Flux Multilingual показал:

Самый высокий совокупный F1-показатель EoT по всем поддерживаемым языкам.
До 3 раз меньшую задержку, чем у конкурирующих систем EoT в реальном времени.

Это достигается за счет использования обучаемого сигнала уверенности, который понимает разговорный контекст, вместо порогов тишины. Этот сигнал является настраиваемым, что позволяет разработчикам регулировать его для более быстрых ответов или более консервативных решений EoT в зависимости от сценария использования.

Развертывание и интеграция

flux-multilingual доступна в двух режимах развертывания с использованием одного и того же API и интеграции:

Cloud API (Deepgram-hosted): для большинства производственных голосовых приложений, управляемая инфраструктура с глобальными и региональными конечными точками.
Self-Hosted (customer-operated): для сред с строгими требованиями к резидентности данных, конфиденциальности, безопасности или задержке, где аудио не покидает вашу инфраструктуру. Доступен также региональный европейский эндпоинт (wss://api.eu.deepgram.com/v2/listen?model=flux-general-multi), обеспечивающий гибкость в развертывании.

Модель поддерживается через партнерские интеграции с Twilio, Vapi, LiveKit, Pipecat и Jambonz. В Voice Agent API Flux Multilingual работает с новой настройкой для автоматического обнаружения языка, позволяя скоординировать STT и TTS через единую конфигурацию API.

Deepgram также предлагает временные акционные тарифы на стриминговое распознавание речи, включая модели Flux Multilingual и Nova-3.

Анонс | Пресс-релиз

Практическое применение и ограничения

Deepgram предоставляет SDK для нескольких языков программирования, включая Python (deepgram-sdk v7.0.0+), JavaScript (@deepgram/sdk v5.1.0+) и Java (deepgram-java-sdk v0.3.0+), что облегчает интеграцию Flux Multilingual в существующие проекты.

При работе с моделью важно учитывать ограничения по количеству одновременных запросов. Для тарифного плана Pay as You Go, flux-multilingual (как и другие модели Flux) поддерживает до 150 одновременных стриминговых запросов в Северной Америке и Европе. Для Voice Agent API этот лимит составляет до 45 одновременных подключений. Также стоит помнить, что тарифные лимиты применяются на уровне проекта, а не аккаунта или API-ключа, и распределение трафика по нескольким проектам для обхода этих лимитов нарушает Условия использования.

Обновления в Voice Agent API: LLM и контроль скорости TTS Cartesia

Помимо выхода Flux Multilingual, Deepgram также представил несколько важных обновлений для Voice Agent API.

Добавлена поддержка модели GPT-5.5 LLM от OpenAI в Voice Agent API. Теперь gpt-5.5 доступна как управляемый LLM уровня Advanced.

Модель llama-nemotron-super-49B удалена из провайдера NVIDIA из-за низкой производительности. Это ломающее изменение (breaking change): разработчикам, использующим эту модель, необходимо обновить свои конфигурации. При этом модель nemotron-3-nano-30B-A3B остается доступной.

Расширен контроль скорости для Cartesia TTS. Параметр agent.speak.provider.speed теперь поддерживает Cartesia TTS в дополнение к Deepgram TTS. Для Cartesia можно использовать как предустановленные значения (slowest, slow, normal, fast, fastest), так и числовые для более точного контроля. Например, конфигурация для Cartesia TTS с указанием конкретной модели и скорости будет выглядеть так: ''' { "agent": { "speak": { "provider": { "type": "cartesia", "model_id": "sonic-2", "voice": { "mode": "id", "id": "a167e0f3-df7e-4d52-a9c3-f949145efdab" }, "speed": "fast" } } } } '''

Changelog

Что это значит

Deepgram продолжает упрощать масштабирование голосовых AI-агентов на глобальный уровень. Выход flux-multilingual снимает с разработчиков задачу по созданию и поддержке сложной многоязычной инфраструктуры, позволяя сосредоточиться на логике агента. В сочетании с гибким управлением LLM и точным контролем TTS, это дает эффективный набор инструментов для создания адаптивных и отзывчивых голосовых интерфейсов, способных работать с аудиторией по всему миру без потери качества или скорости.

Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности daily