Стоит читать если: вы работаете со структурированным выводом LLM или с задачами потоковой расшифровки аудио с разделением дикторов. Можно пропустить если: вы не используете LLM Gateway и вас не интересует стриминговая диаризация речи.
LLM Gateway сам чинит сломанный JSON
Главная боль при работе с LLM — нестабильный JSON-вывод. Модели часто «забывают» экранировать кавычки, ставят лишние запятые или оставляют случайные маркеры Markdown. Теперь LLM Gateway от AssemblyAI может автоматически исправлять такие ошибки благодаря новой функции постобработки JSON-восстановлением.
Новый конвейер постобработки (post_processing_steps) позволяет задать шаги, которые будут выполнены до того, как вывод LLM попадёт в ваше приложение. Первым доступным шагом стала функция json-repair.
JSON-восстановление справляется с распространёнными проблемами:
- Лишние запятые.
- Неэкранированные кавычки.
- Отсутствующие скобки.
- Случайные маркеры Markdown в теле JSON.
Как это использовать: достаточно добавить массив post_processing_steps с объектом {"type": "json-repair"} в запрос LLM Gateway.
Важно: эта функция работает со всеми моделями, доступными через LLM Gateway, без специфической для модели конфигурации. Шаги выполняются в том порядке, в котором они указаны. Функция доступна всем пользователям LLM Gateway во всех регионах. Подробнее в changelog AssemblyAI.
Диаризация диктора получила метки для каждого слова
Проблема с разделением голосов в реальном времени часто приводила к путанице. AssemblyAI выпустила крупное обновление для потоковой диаризации диктора (Streaming Speaker Diarization), которое повышает точность и теперь предоставляет метки диктора для каждого слова.
Повышение точности:
- Ложные срабатывания дикторов уменьшены на 66%.
- Частота фантомных поворотов снижена на 60% (по внутренним тестам).
- Улучшение cpWER (сопоставимый процент ошибок слов) на 12% в целом и на 24% в разговорах двух дикторов.
Метки диктора на каждое слово — теперь каждый объект слова содержит собственную метку диктора. Это позволяет более точно определять смену диктора даже в середине реплики, тогда как ранее метка давалась только на уровне целого поворота.
Когда модель не уверена в атрибуции слова, оно помечается как UNKNOWN.
Совместимость сохранена: поле speaker_label на уровне поворота остаётся неизменным, поэтому существующие интеграции продолжат работать.
Рекомендация по моделям: для максимальной точности диаризации рекомендуется использовать Universal-3 Pro Streaming (параметр "speech_model": "u3-rt-pro"), но обновление также затрагивает Universal-Streaming. Новая модель доступна в производстве в регионах США и ЕС.
Что это значит
Оба обновления направлены на повышение надёжности AI-систем в продакшене. JSON-восстановление в LLM Gateway убирает головную боль с постобработкой ответов, которые должны быть структурированы. Улучшенная диаризация позволяет создавать более точные стенограммы и анализировать взаимодействия с гораздо меньшим количеством ошибок. Это помогает инженерам строить более устойчивые и точные приложения на базе речи и LLM, снижая необходимость в ручных доработках и повышая качество данных.