AI News Watcher
Friday, Jun 26, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 26, 2026 · 2 min read · Alibaba ← Back to feed

Alibaba Qwen3-ASR: расшифрует 52 языка и точно выровняет речь из любой ASR daily

Старшая модель конкурирует с коммерческими API, а выравниватель точнее других моделей.

Alibaba Qwen3-ASR: расшифрует 52 языка и точно выровняет речь из любой ASR
Редакция · Daily briefing

Alibaba выпустила две линейки моделей для работы с речью: Qwen3-ASR для распознавания 52 языков и Qwen3-ForcedAligner для точной привязки текста к аудио. Последняя выделяется тем, что принимает транскрипты от любой системы ASR, а не только от своих.

Alibaba представила семейство моделей Qwen3-ASR, разработанных для автоматического распознавания и идентификации речи. В него входят две версии: Qwen3-ASR-1.7B и Qwen3-ASR-0.6B. Обе модели поддерживают 52 языка и диалекта, включая 30 языков и 22 китайских диалекта, а также различные акценты английского.

Старшая модель, Qwen3-ASR-1.7B, демонстрирует производительность, сопоставимую с коммерческими API, и является одной из лучших среди открытых ASR-моделей. Младшая, Qwen3-ASR-0.6B, ориентирована на скорость и достигает пропускной способности в 2000 раз при 128 одновременных запросах. Обе версии работают как в потоковом, так и в офлайн-режиме, а также способны обрабатывать длинные аудиозаписи.

Одновременно выпущена модель Qwen3-ForcedAligner-0.6B-hf, предназначенная для принудительного выравнивания речи. Она позволяет точно привязывать временные метки к словам или другим единицам текста в аудиозаписях длительностью до пяти минут.

Ключевая особенность Qwen3-ForcedAligner — её универсальность: модель может принимать транскрипты от любой ASR-системы, включая сторонние решения вроде NVIDIA Parakeet CTC. Это отличает её от большинства E2E (end-to-end) моделей выравнивания, которые обычно требуют использования своей же ASR. Qwen3-ForcedAligner поддерживает 11 языков и, по заявлению Alibaba, превосходит E2E-модели по точности. Для ускорения работы модель оптимизирована с помощью torch.compile, что даёт прирост до 2.5 раз при пакетной обработке.

Alibaba предлагает инженерам открытый ASR-движок, способный конкурировать с коммерческими аналогами, и уникальный инструмент принудительного выравнивания. Последний особенно ценен тем, что позволяет интегрировать точную временную привязку в существующие рабочие процессы, не привязываясь к конкретной ASR-системе. Однако конкретные независимые бенчмарки, подтверждающие заявленную конкурентоспособность ASR-моделей с проприетарными API, в релизе не представлены.

Дополнительные источники

  1. Parakeet CTC 1.1B (en)
  2. github.com
  3. research.google
  4. emergentmind.com
  5. nvidia.com

Источники

  1. https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B-hf docs
  2. https://huggingface.co/Qwen/Qwen3-ASR-0.6B-hf docs
  3. https://huggingface.co/Qwen/Qwen3-ASR-1.7B-hf docs
→ Опубликовано в Telegram: @agentic_ai_news/587