AssemblyAI: когда JSON самоисправляется, а голоса чётко делятся по словам

Hero illustration: AssemblyAI: когда JSON самоисправляется, а голоса чётко делятся по словам.

Стоит читать если: вы работаете со структурированным выводом LLM или с задачами потоковой расшифровки аудио с разделением дикторов. Можно пропустить если: вы не используете LLM Gateway и вас не интересует стриминговая диаризация речи.

LLM Gateway сам чинит сломанный JSON

Главная боль при работе с LLM — нестабильный JSON-вывод. Модели часто «забывают» экранировать кавычки, ставят лишние запятые или оставляют случайные маркеры Markdown. Теперь LLM Gateway от AssemblyAI может автоматически исправлять такие ошибки благодаря новой функции постобработки JSON-восстановлением.

Новый конвейер постобработки (post_processing_steps) позволяет задать шаги, которые будут выполнены до того, как вывод LLM попадёт в ваше приложение. Первым доступным шагом стала функция json-repair. JSON-восстановление справляется с распространёнными проблемами:

Лишние запятые.
Неэкранированные кавычки.
Отсутствующие скобки.
Случайные маркеры Markdown в теле JSON.

Как это использовать: достаточно добавить массив post_processing_steps с объектом {"type": "json-repair"} в запрос LLM Gateway. Важно: эта функция работает со всеми моделями, доступными через LLM Gateway, без специфической для модели конфигурации. Шаги выполняются в том порядке, в котором они указаны. Функция доступна всем пользователям LLM Gateway во всех регионах. Подробнее в changelog AssemblyAI.

Диаризация диктора получила метки для каждого слова

Проблема с разделением голосов в реальном времени часто приводила к путанице. AssemblyAI выпустила крупное обновление для потоковой диаризации диктора (Streaming Speaker Diarization), которое повышает точность и теперь предоставляет метки диктора для каждого слова.

Повышение точности:

Ложные срабатывания дикторов уменьшены на 66%.
Частота фантомных поворотов снижена на 60% (по внутренним тестам).
Улучшение cpWER (сопоставимый процент ошибок слов) на 12% в целом и на 24% в разговорах двух дикторов.

Метки диктора на каждое слово — теперь каждый объект слова содержит собственную метку диктора. Это позволяет более точно определять смену диктора даже в середине реплики, тогда как ранее метка давалась только на уровне целого поворота. Когда модель не уверена в атрибуции слова, оно помечается как UNKNOWN. Совместимость сохранена: поле speaker_label на уровне поворота остаётся неизменным, поэтому существующие интеграции продолжат работать. Рекомендация по моделям: для максимальной точности диаризации рекомендуется использовать Universal-3 Pro Streaming (параметр "speech_model": "u3-rt-pro"), но обновление также затрагивает Universal-Streaming. Новая модель доступна в производстве в регионах США и ЕС.

Что это значит

Оба обновления направлены на повышение надёжности AI-систем в продакшене. JSON-восстановление в LLM Gateway убирает головную боль с постобработкой ответов, которые должны быть структурированы. Улучшенная диаризация позволяет создавать более точные стенограммы и анализировать взаимодействия с гораздо меньшим количеством ошибок. Это помогает инженерам строить более устойчивые и точные приложения на базе речи и LLM, снижая необходимость в ручных доработках и повышая качество данных.

AssemblyAI: когда JSON самоисправляется, а голоса чётко делятся по словам daily

LLM Gateway сам чинит сломанный JSON

Диаризация диктора получила метки для каждого слова

Что это значит

Источники

Оценить материал