AI News Watcher
Wednesday, May 6, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · May 06, 2026 · 2 min read · AssemblyAI ← Back to feed

AssemblyAI: когда JSON самоисправляется, а голоса чётко делятся по словам daily

Работа с моделями в продакшене всегда подразумевает компромиссы: LLM могут «глючить» с JSON-форматом, а аудиомодели — неточно разделять голоса в потоке. На этой неделе AssemblyAI показала два обновления, которые решают обе проблемы: автоматическое исправление некорректного JSON от LLM и повышение точности диаризации дикторов в реальном времени с разметкой по словам.

Hero illustration: AssemblyAI: когда JSON самоисправляется, а голоса чётко делятся по словам.

Редакция · Daily briefing

Стоит читать если: вы работаете со структурированным выводом LLM или с задачами потоковой расшифровки аудио с разделением дикторов. Можно пропустить если: вы не используете LLM Gateway и вас не интересует стриминговая диаризация речи.

LLM Gateway сам чинит сломанный JSON

Главная боль при работе с LLM — нестабильный JSON-вывод. Модели часто «забывают» экранировать кавычки, ставят лишние запятые или оставляют случайные маркеры Markdown. Теперь LLM Gateway от AssemblyAI может автоматически исправлять такие ошибки благодаря новой функции постобработки JSON-восстановлением.

Новый конвейер постобработки (post_processing_steps) позволяет задать шаги, которые будут выполнены до того, как вывод LLM попадёт в ваше приложение. Первым доступным шагом стала функция json-repair. JSON-восстановление справляется с распространёнными проблемами:

Как это использовать: достаточно добавить массив post_processing_steps с объектом {"type": "json-repair"} в запрос LLM Gateway. Важно: эта функция работает со всеми моделями, доступными через LLM Gateway, без специфической для модели конфигурации. Шаги выполняются в том порядке, в котором они указаны. Функция доступна всем пользователям LLM Gateway во всех регионах. Подробнее в changelog AssemblyAI.

Диаризация диктора получила метки для каждого слова

Проблема с разделением голосов в реальном времени часто приводила к путанице. AssemblyAI выпустила крупное обновление для потоковой диаризации диктора (Streaming Speaker Diarization), которое повышает точность и теперь предоставляет метки диктора для каждого слова.

Повышение точности:

Метки диктора на каждое слово — теперь каждый объект слова содержит собственную метку диктора. Это позволяет более точно определять смену диктора даже в середине реплики, тогда как ранее метка давалась только на уровне целого поворота. Когда модель не уверена в атрибуции слова, оно помечается как UNKNOWN. Совместимость сохранена: поле speaker_label на уровне поворота остаётся неизменным, поэтому существующие интеграции продолжат работать. Рекомендация по моделям: для максимальной точности диаризации рекомендуется использовать Universal-3 Pro Streaming (параметр "speech_model": "u3-rt-pro"), но обновление также затрагивает Universal-Streaming. Новая модель доступна в производстве в регионах США и ЕС.

Что это значит

Оба обновления направлены на повышение надёжности AI-систем в продакшене. JSON-восстановление в LLM Gateway убирает головную боль с постобработкой ответов, которые должны быть структурированы. Улучшенная диаризация позволяет создавать более точные стенограммы и анализировать взаимодействия с гораздо меньшим количеством ошибок. Это помогает инженерам строить более устойчивые и точные приложения на базе речи и LLM, снижая необходимость в ручных доработках и повышая качество данных.

Источники

  1. https://www.assemblyai.com/changelog docs