Alibaba Qwen: мультимодальность, агентское кодирование и живой перевод

Hero illustration: Alibaba Qwen: мультимодальность, агентское кодирование и живой перевод.

О чём эта новость

Alibaba представила Qwen3.7-Max как флагманскую модель для эры ИИ-агентов, способную к автономному выполнению сложных задач.подробнее →
Расширенные мультимодальные возможности в Qwen3.5 и Qwen3.6 позволяют обрабатывать текст, изображения и видео сподробнее →
Значительные прорывы в агентском кодировании демонстрируют Qwen3.6-27B и Qwen3.7-Max, превосходящие предыдущие версии.подробнее →
Qwen3.5-LiveTranslate предлагает синхронный перевод на 60 языков с низкой задержкой, клонированием голоса и учетом визуального контекста.подробнее →

Alibaba делает значительный шаг вперед в развитии искусственного интеллекта, представив серию моделей Qwen с беспрецедентными возможностями. Эти инновации охватывают мультимодальность, агентское кодирование и синхронный перевод, демонстрируя амбиции компании в формировании будущего ИИ, ориентированного на агентов. В частности, выпущена модель Qwen3.7-Max, которая призвана стать основой для нового поколения интеллектуальных агентов, способных к сложным и автономным действиям.

Новая эра агентов и Qwen3.7-Max

Alibaba представила Qwen3.7-Max как свою новейшую проприетарную модель, разработанную для эры ИИ-агентов. Эта модель позиционируется как универсальная основа для агентов, способная эффективно выполнять широкий спектр задач: от написания и отладки кода до автоматизации офисных рабочих процессов и поддержания автономного выполнения на сотнях и даже тысячах шагов. Qwen3.7-Max отличается исключительной широтой и глубиной своих агентских возможностей, демонстрируя стабильную производительность независимо от используемой среды, будь то Claude Code, OpenClaw или Qwen Code. В источниках нет данных о конкретных примерах использования Qwen3.7-Max в офисной автоматизации, помимо упомянутых общих сценариев, таких как синтез сложной информации, глубокий анализ данных и генерация документов.

Alibaba также анонсировала комплексное обновление своего полного ИИ-стека, чтобы обеспечить более эффективное, надежное и производительное создание, развертывание и масштабирование ИИ-агентов. Это обновление включает облачную инфраструктуру, модельные сервисы, ИИ-чипы и базовые модели. В рамках этого стека был представлен сервер Panjiu AL128 Supernode, разработанный для поддержки масштабируемого вывода агентов и крупномасштабного обучения моделей. Этот сервер интегрирует 128 ИИ-акселераторов в одной стойке, обеспечивая беспрецедентную пропускную способность на уровне петабайт в секунду для обработки огромного количества одновременных запросов от агентов.

В области аппаратных инноваций, дочерняя компания Alibaba по разработке полупроводников T-Head представила Zhenwu M890, свой новейший процессор для обучения и вывода ИИ. Этот чип в три раза превосходит своего предшественника Zhenwu 810E по производительности, оснащен 144 гигабайтами памяти и обладает межчиповой пропускной способностью 800 ГБ в секунду. Zhenwu M890 поддерживает различные форматы точности данных, от FP32 до FP4, что делает его подходящим как для высокоточного обучения, так и для сверхнизкоточной инференции. Эти характеристики делают его идеально подходящим для сложных агентских ИИ-задач, требующих обширной рабочей памяти для удержания контекста, высокоскоростной связи для многоагентной координации и низкоточных вычислений для поддержания быстрой работы при снижении затрат. Дополнительно был представлен ICN Switch 1.0 — специализированный коммутационный чип, предназначенный для создания высокоскоростных сетей с низкой задержкой для вычислительных кластеров.

Расширенная мультимодальность в Qwen3.5 и Qwen3.6

Серии моделей Qwen3.5 и Qwen3.6 демонстрируют значительные успехи в расширении мультимодальных возможностей, позволяя ИИ обрабатывать и понимать разнообразные типы данных. Qwen3.5-397B-A17B является нативной моделью зрения-языка, показывающей выдающиеся результаты в мультимодальном понимании. Эта модель способна обрабатывать не только текст, но и изображения, а также видео, обеспечивая более глубокое и контекстуально осознанное взаимодействие с информацией. Благодаря инновационной гибридной архитектуре, сочетающей линейное внимание с разреженной смесью экспертов (MoE), она достигает высокой эффективности инференции при активации всего 17 миллиардов параметров из 397 миллиардов общих.

Модели Qwen3.6-27B и Qwen3.6-35B-A3B также являются нативно мультимодальными и поддерживают как режимы «мышления», так и «не-мышления» для задач, связанных со зрением и языком, в рамках единого унифицированного чекпоинта. Это позволяет им эффективно справляться с мультимодальным рассуждением, пониманием документов и визуальными ответами на вопросы, интегрируя визуальную и текстовую информацию. Новые возможности мультимодального рассуждения включают улучшенное понимание пространственных отношений, что подтверждается высокими показателями в бенчмарках, таких как RefCOCO (92.5 для Qwen3.6-27B) и ODInW13 (50.8 для Qwen3.6-35B-A3B).

В контексте мультимодальности, режимы «мышления» (thinking) и «не-мышления» (non-thinking) представляют собой уникальный подход Qwen к обработке задач. В режиме «мышления» модель выделяет время для пошагового рассуждения перед формированием ответа, что идеально подходит для сложных, многоэтапных задач, требующих глубокого анализа. Режим «не-мышления», напротив, обеспечивает быстрые и почти мгновенные ответы, что более подходит для простых запросов, где скорость является приоритетом. Эта гибкость позволяет оптимизировать баланс между интеллектуальной производительностью и вычислительной эффективностью в зависимости от требований конкретной мультимодальной задачи.

Прорывы в агентском кодировании

Alibaba значительно улучшила возможности серии Qwen в области агентского кодирования, представив модели, демонстрирующие передовую производительность и глубокую интеграцию с инструментами разработчиков. Qwen3.7-Max позиционируется как фронтирный агент кодирования, способный выполнять широкий спектр задач — от прототипирования фронтенда до сложного многофайлового проектирования программного обеспечения. Эта модель демонстрирует высокую эффективность в задачах GPU-оптимизации ядер, достигая медианного ускорения в 10.0x над Triton Reference в сценарии с T-Head ZW-M890 PPUs, платформой, которую модель никогда не видела во время обучения. При этом модель автономно выполняла оптимизацию в течение 35 часов, сделав 1158 вызовов инструмента.

Qwen3.6-27B, плотная модель с 27 миллиардами параметров, обеспечивает кодирование агентского уровня, превосходящее предыдущую флагманскую модель Qwen3.5-397B-A17B по всем основным бенчмаркам кодирования. Например, Qwen3.6-27B набрала 77.2 балла по SWE-bench Verified против 76.2 у предшественника, 53.5 против 50.9 по SWE-bench Pro, 59.3 против 52.5 по Terminal-Bench 2.0 и 48.2 против 30.0 по SkillsBench. Это свидетельствует о значительном прорыве в эффективности для плотных моделей. Qwen3.6-35B-A3B, модель с архитектурой MoE (35 миллиардов общих параметров, 3 миллиарда активных), также демонстрирует исключительные возможности агентского кодирования, значительно превосходя своего прямого предшественника Qwen3.5-35B-A3B и конкурируя с гораздо более крупными плотными моделями, такими как Qwen3.5-27B. Предварительная версия Qwen3.6-Max-Preview также показала значительные улучшения в агентском кодировании по сравнению с Qwen3.6-Plus, достигнув лучших результатов по шести основным бенчмаркам кодирования.

Разработчики могут использовать эти модели для автоматизации и оптимизации своих рабочих процессов благодаря их бесшовной интеграции с популярными сторонними помощниками по кодированию, включая OpenClaw, Claude Code и Qwen Code. Модели Qwen доступны через API Alibaba Cloud Model Studio, который поддерживает отраслевые стандартные протоколы, совместимые со спецификациями OpenAI и Anthropic. Это позволяет разработчикам легко внедрять передовые возможности кодирования ИИ в свои существующие инструменты и системы. Однако, документ не раскрывает подробностей о доступности новых моделей и ценообразовании для международных пользователей Alibaba Cloud Model Studio.

Инновации в живом переводе с Qwen3.5-LiveTranslate

Alibaba представила модель Qwen3.5-LiveTranslate-Flash, новейшую разработку в семействе Qwen, предназначенную для синхронного перевода. Эта модель предлагает не просто перевод речи в реальном времени, но и мультимодальный подход, который учитывает визуальный контекст для создания более точных и релевантных переводов. Qwen3.5-LiveTranslate-Flash построена на базе Qwen3.5-Omni и значительно превосходит своего предшественника, Qwen3-LiveTranslate, по всем ключевым параметрам.

Значительно расширилась языковая поддержка: модель теперь понимает 60 языков и говорит на 29 языках, по сравнению с 18 и 10 языками соответственно в предыдущей версии. Это обеспечивает гораздо более широкий охват кросс-языковых комбинаций, что критически важно для международных встреч, локализации прямых трансляций, онлайн-классов и деловых переговоров. Помимо этого, модель достигает сверхнизкой задержки перевода благодаря новой технологии Readable Unit. Средняя задержка речи-в-речь на один токен была снижена до 2.8 секунд, что делает ее идеальной для сценариев, чувствительных к задержке, таких как прямые эфиры и пресс-конференции.

Одной из ключевых инноваций является клонирование голоса в реальном времени. Система автоматически воспроизводит вокальные характеристики говорящего, создавая впечатление, что «один и тот же человек» говорит на разных языках. Это повышает эффект присутствия и сохраняет идентичность говорящего, что особенно важно для стримеров, гостей и ведущих. Модель также эффективно использует визуальный контекст для разрешения неоднозначностей. Когда слово или фраза имеют несколько возможных значений, Qwen3.5-LiveTranslate анализирует то, что видит (текст на экране, объекты или контекст сцены), чтобы выбрать наиболее подходящую интерпретацию, обеспечивая высокую точность и контекстуальную корректность перевода. Дополнительно, функция «горячих слов» (Hotword) позволяет модели распознавать и правильно переводить собственные имена, названия мест, брендов, моделей продуктов и отраслевую терминологию, которую можно динамически настраивать и обновлять в реальном времени, существенно снижая риск ошибочного перевода специфических терминов.

Основы Qwen3: гибридное мышление и языковое разнообразие

В основе серии Qwen3 лежат фундаментальные инновации, такие как гибридные режимы мышления и обширная языковая поддержка. Модели Qwen3 способны переключаться между двумя основными режимами: «Thinking Mode» (режим мышления) и «Non-Thinking Mode» (режим не-мышления). Первый предназначен для решения сложных, многошаговых задач, таких как математические вычисления, кодирование и логический вывод, требующих глубокого и пошагового рассуждения. Второй же обеспечивает быстрые и мгновенные ответы на общие вопросы, где приоритет отдается скорости. Эта гибкость позволяет пользователям оптимизировать баланс между глубиной анализа и вычислительной эффективностью в зависимости от конкретных требований задачи.

Базовые модели Qwen3 обладают обширной многоязычной поддержкой, охватывая 119 языков и диалектов. Это позволяет моделям эффективно работать в глобальном масштабе, предоставляя высококачественные переводы и понимание инструкций на различных языках. Расширенные языковые возможности открывают новые перспективы для создания международных приложений и сервисов. В дополнение к основным языковым моделям, в экосистему Qwen также входят модели для встраивания текста (embedding) и переранжирования (reranking). Серия Qwen3 Embedding, включающая модели с параметрами 0.6B, 4B и 8B, предназначена для преобразования неструктурированного текста в плотные числовые векторы, которые улавливают семантическое значение. Это позволяет машинам измерять сходство между текстами, поддерживая такие задачи, как семантический поиск, кластеризация и классификация. Модели переранжирования уточняют результаты поиска, ранжируя их на основе более тонких показателей релевантности, что значительно повышает точность выдачи.

Что это значит

Непрерывное развитие серии Qwen, включая значительные улучшения в мультимодальности, агентском кодировании и живом переводе, укрепляет позиции Alibaba как ключевого игрока в формировании будущего ИИ. Инвестиции в полноценный ИИ-стек и аппаратные инновации, такие как чип Zhenwu M890 и сервер Panjiu AL128, подчеркивают стратегическое видение компании по обеспечению масштабируемой и эффективной платформы для ИИ-агентов. Эти достижения позволяют разработчикам создавать более мощные и автономные ИИ-решения, открывая путь к новым возможностям в автоматизации и взаимодействии человека с компьютером.

Alibaba Qwen: мультимодальность, агентское кодирование и живой перевод weekly