Когда модель путает врача с пациентом или агента с клиентом, транскрипт становится бесполезным. Deepgram выпустил Batch Diarization V2 — новую архитектуру определения спикеров для предзаписанного аудио. В слепом тесте живые оценщики предпочли её старой версии в 63% случаев против 19%.
V2 переписан с нуля: новая модель эмбеддингов спикеров, расширенные обучающие данные, улучшенные сегментация и кластеризация. Deepgram измеряет качество через Confusion Error Rate (CER) — долю времени речи, приписанной не тому спикеру. Снижение CER зафиксировано во всех трёх тестовых доменах: Voice Agent, Contact Center и Medical. Из 158 голосов в human eval: 63,3% за V2, 19,0% за V1, 17,7% без предпочтения — итоговое соотношение 3,3×.
Подключить V2 можно через новый параметр diarize_model:
latest— всегда последняя GA-версия диаризатора (сейчас это V2).v2— явно фиксирует V2.v1— явно фиксирует старую версию.
Существующие запросы с diarize=true продолжают использовать V1 без изменений — breaking changes нет. V2 доступен для Nova-1, Nova-2, Nova-3, Base и Enhanced моделей, поддерживает все языки включая multilingual и работает в self-hosted развёртываниях. Цена не изменилась.
Улучшенная сегментация должна помочь и в сценариях, где V1 стабильно давал сбои: например, на аудио с несколькими голосами в одном потоке модель нередко сваливала всех спикеров в один лейбл — как раз тот случай, где новая кластеризация меняет результат.
V2 закрывает самую болезненную точку диаризации — неверное слияние и разделение спикеров — и делает это без ценового барьера и без поломки существующего кода. Честный пробел: Deepgram не публикует абсолютные цифры CER по доменам, только «улучшение относительно V1». Как V2 ведёт себя на стриминге — не раскрывается. Сравнения с конкурентами на стандартных публичных датасетах в анонсе нет.