Alibaba Qwen3-ASR: расшифрует 52 языка и точно выровняет речь из любой ASR

Alibaba выпустила две линейки моделей для работы с речью: Qwen3-ASR для распознавания 52 языков и Qwen3-ForcedAligner для точной привязки текста к аудио. Последняя выделяется тем, что принимает транскрипты от любой системы ASR, а не только от своих.

Alibaba представила семейство моделей Qwen3-ASR, разработанных для автоматического распознавания и идентификации речи. В него входят две версии: Qwen3-ASR-1.7B и Qwen3-ASR-0.6B. Обе модели поддерживают 52 языка и диалекта, включая 30 языков и 22 китайских диалекта, а также различные акценты английского.

Старшая модель, Qwen3-ASR-1.7B, демонстрирует производительность, сопоставимую с коммерческими API, и является одной из лучших среди открытых ASR-моделей. Младшая, Qwen3-ASR-0.6B, ориентирована на скорость и достигает пропускной способности в 2000 раз при 128 одновременных запросах. Обе версии работают как в потоковом, так и в офлайн-режиме, а также способны обрабатывать длинные аудиозаписи.

Одновременно выпущена модель Qwen3-ForcedAligner-0.6B-hf, предназначенная для принудительного выравнивания речи. Она позволяет точно привязывать временные метки к словам или другим единицам текста в аудиозаписях длительностью до пяти минут.

Ключевая особенность Qwen3-ForcedAligner — её универсальность: модель может принимать транскрипты от любой ASR-системы, включая сторонние решения вроде NVIDIA Parakeet CTC. Это отличает её от большинства E2E (end-to-end) моделей выравнивания, которые обычно требуют использования своей же ASR. Qwen3-ForcedAligner поддерживает 11 языков и, по заявлению Alibaba, превосходит E2E-модели по точности. Для ускорения работы модель оптимизирована с помощью torch.compile, что даёт прирост до 2.5 раз при пакетной обработке.

Alibaba предлагает инженерам открытый ASR-движок, способный конкурировать с коммерческими аналогами, и уникальный инструмент принудительного выравнивания. Последний особенно ценен тем, что позволяет интегрировать точную временную привязку в существующие рабочие процессы, не привязываясь к конкретной ASR-системе. Однако конкретные независимые бенчмарки, подтверждающие заявленную конкурентоспособность ASR-моделей с проприетарными API, в релизе не представлены.

Alibaba Qwen3-ASR: расшифрует 52 языка и точно выровняет речь из любой ASR daily

Дополнительные источники

Источники

Оценить материал