Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках

Hero illustration: Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках.

Стоит читать если: вы работаете с распознаванием речи в многоязычной среде, особенно в Азии, или ваши приложения требуют автоматической модерации контента. Можно пропустить если: вы используете Deepgram только для английского языка и не сталкиваетесь с задачей фильтрации контента.

Фильтрация ненормативной лексики выходит за рамки английского

Новая функциональность позволяет автоматически обнаруживать и редактировать оскорбительную лексику в стенограммах на более чем 50 монолингвальных языках. Это закрывает проблему, когда контент требовал ручной модерации или интеграции сторонних решений для неанглоязычных аудиопотоков.

Чтобы активировать фильтрацию, достаточно указать в запросе, что необходимо включить обработку ненормативной лексики. Это унифицирует процесс модерации контента, делая его доступным через один API-вызов, независимо от языка.

nova-3 теперь говорит на тайском и мандаринском, и не только

Deepgram nova-3 расширяет своё присутствие в Азиатско-Тихоокеанском регионе, добавив поддержку тайского (th, th-TH), кантонского традиционного (zh-HK), мандаринского упрощенного (zh, zh-CN, zh-Hans) и мандаринского традиционного (zh-TW, zh-Hant) языков. Это критически важно для региона, где языки могут быть тональными, использовать несколько систем письма и иметь заметные региональные различия в произношении, что исторически затрудняло их точное распознавание системами преобразования речи в текст.

Повышена точность распознавания речи для ряда индийских языков. В частности, улучшена работа с бенгальским (bn), маратхи (mr), тамильским (ta) и телугу (te), а также добавлена поддержка гуджарати (gu, gu-IN). Эти улучшения помогают создавать более надёжные голосовые приложения для Южной Азии, где языки охватывают множество семей, письменностей и фонетических структур.

Модель nova-3 показывает снижение относительной частоты ошибок по словам (WER) по сравнению с nova-2. Например, транскрипция на тайском языке в потоковом режиме снизила WER на 69,43%, на мандаринском упрощенном в пакетном режиме — на 65,21%. Для кантонского традиционного снижение WER составило 24,82%, а для мандаринского традиционного — 44,87% в пакетных рабочих процессах.

nova-3 теперь предлагает улучшения в общей точности распознавания речи, демонстрируя сокращение частоты ошибок по словам (WER) на 54.2% для потоковой обработки и на 47.4% для пакетной обработки по сравнению с конкурентами. Это указывает на более высокую надёжность модели для широкого спектра сценариев.

Расширенная языковая поддержка nova-3 охватывает десятки языков, помимо азиатских, включая арабский (с региональными вариантами), белорусский, болгарский, каталанский, чешский, датский, эстонский, финский, греческий, иврит, венгерский, индонезийский, каннада, корейский, латышский, литовский, македонский, малайский, норвежский, персидский, польский, румынский, сербский, словацкий, словенский, шведский, тагальский, турецкий, украинский, урду и вьетнамский. Это позволяет разработчикам создавать по-настоящему глобальные голосовые приложения.

nova-3 обеспечивает несколько передовых возможностей для обработки речи. К ним относятся транскрипция многоязычных разговоров в реальном времени, улучшенное понимание предметной терминологии и возможность редактирования конфиденциальной личной информации. Также модель позволяет выполнять самообслуживаемую настройку, что позволяет мгновенно адаптировать словарный запас без необходимости переобучения модели. nova-3 рекомендуется для совещаний, субтитров к событиям, многоголосного, многоязычного, зашумлённого аудио или аудио с дальнего поля, как в пакетной, так и в потоковой обработке.

Для разработчиков новый функционал доступен через тот же API. Для переключения на любой из поддерживаемых языков достаточно указать необходимый язык в запросе. Это позволяет внедрять новые языки без переобучения моделей или сложной конфигурации.

Ограничения и масштабирование

Работа с большими нагрузками требует учёта ограничений по числу одновременных запросов. Deepgram устанавливает лимиты, которые зависят от используемого плана и региона. Для nova-3 в Северной Америке и Европе по тарифу Pay as You Go, потоковая обработка поддерживает до 150 одновременных запросов, а пакетная — до 50. На тарифном плане Growth для Северной Америки число одновременных потоковых запросов для nova-3 увеличивается до 225.

Важно знать, что лимиты применяются на уровне проекта, а не аккаунта или API-ключа. Создание дополнительных проектов не предоставляет дополнительную параллельность, и попытки обойти лимиты таким способом нарушают условия обслуживания.

Также за день

Повышенные ошибки 5XX для неанглоязычных пакетных запросов STT с редактированием — Deepgram расследовал и разрешил инцидент, связанный с повышенным количеством ошибок 5XX для неанглоязычных пакетных запросов преобразования речи в текст, использующих редактирование.

Что это значит

Инструменты Deepgram становятся более универсальными и надёжными для работы с глобальными рынками. Расширение языковой поддержки nova-3 и улучшение фильтрации контента напрямую влияют на качество и применимость голосовых приложений в Азии и других многоязычных регионах. Разработчики получают больше возможностей для создания локализованных продуктов, способных эффективно обрабатывать и модерировать речь на различных языках, снижая потребность в кастомных решениях. Самообслуживаемая кастомизация словаря ускоряет адаптацию модели к специфическим доменам, а высокая точность распознавания и возможности редактирования конфиденциальной информации делают nova-3 универсальным решением для различных сценариев, от контакт-центров до медиааналитики.

Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках daily

Фильтрация ненормативной лексики выходит за рамки английского

nova-3 теперь говорит на тайском и мандаринском, и не только

Ограничения и масштабирование

Также за день

Что это значит

Документация:

Источники

Оценить материал