AI News Watcher
Monday, May 25, 2026  ·  Weekly briefing
Feed Telegram
Weekly briefing · By AI News Watcher · May 25, 2026 · 9 min read · Alibaba ← Back to feed

Alibaba Qwen: мультимодальность, агентское кодирование и живой перевод weekly

Alibaba представила Qwen3.7-Max как флагманскую модель для ИИ-агентов, значительно улучшила мультимодальные и переводческие возможности, а также анонсировала новый ИИ-стек и аппаратные инновации.

Hero illustration: Alibaba Qwen: мультимодальность, агентское кодирование и живой перевод.

Редакция · Weekly briefing

Alibaba делает значительный шаг вперед в развитии искусственного интеллекта, представив серию моделей Qwen с беспрецедентными возможностями. Эти инновации охватывают мультимодальность, агентское кодирование и синхронный перевод, демонстрируя амбиции компании в формировании будущего ИИ, ориентированного на агентов. В частности, выпущена модель Qwen3.7-Max, которая призвана стать основой для нового поколения интеллектуальных агентов, способных к сложным и автономным действиям.

Новая эра агентов и Qwen3.7-Max

Alibaba представила Qwen3.7-Max как свою новейшую проприетарную модель, разработанную для эры ИИ-агентов. Эта модель позиционируется как универсальная основа для агентов, способная эффективно выполнять широкий спектр задач: от написания и отладки кода до автоматизации офисных рабочих процессов и поддержания автономного выполнения на сотнях и даже тысячах шагов. Qwen3.7-Max отличается исключительной широтой и глубиной своих агентских возможностей, демонстрируя стабильную производительность независимо от используемой среды, будь то Claude Code, OpenClaw или Qwen Code. В источниках нет данных о конкретных примерах использования Qwen3.7-Max в офисной автоматизации, помимо упомянутых общих сценариев, таких как синтез сложной информации, глубокий анализ данных и генерация документов.

Alibaba также анонсировала комплексное обновление своего полного ИИ-стека, чтобы обеспечить более эффективное, надежное и производительное создание, развертывание и масштабирование ИИ-агентов. Это обновление включает облачную инфраструктуру, модельные сервисы, ИИ-чипы и базовые модели. В рамках этого стека был представлен сервер Panjiu AL128 Supernode, разработанный для поддержки масштабируемого вывода агентов и крупномасштабного обучения моделей. Этот сервер интегрирует 128 ИИ-акселераторов в одной стойке, обеспечивая беспрецедентную пропускную способность на уровне петабайт в секунду для обработки огромного количества одновременных запросов от агентов.

В области аппаратных инноваций, дочерняя компания Alibaba по разработке полупроводников T-Head представила Zhenwu M890, свой новейший процессор для обучения и вывода ИИ. Этот чип в три раза превосходит своего предшественника Zhenwu 810E по производительности, оснащен 144 гигабайтами памяти и обладает межчиповой пропускной способностью 800 ГБ в секунду. Zhenwu M890 поддерживает различные форматы точности данных, от FP32 до FP4, что делает его подходящим как для высокоточного обучения, так и для сверхнизкоточной инференции. Эти характеристики делают его идеально подходящим для сложных агентских ИИ-задач, требующих обширной рабочей памяти для удержания контекста, высокоскоростной связи для многоагентной координации и низкоточных вычислений для поддержания быстрой работы при снижении затрат. Дополнительно был представлен ICN Switch 1.0 — специализированный коммутационный чип, предназначенный для создания высокоскоростных сетей с низкой задержкой для вычислительных кластеров.

Расширенная мультимодальность в Qwen3.5 и Qwen3.6

Серии моделей Qwen3.5 и Qwen3.6 демонстрируют значительные успехи в расширении мультимодальных возможностей, позволяя ИИ обрабатывать и понимать разнообразные типы данных. Qwen3.5-397B-A17B является нативной моделью зрения-языка, показывающей выдающиеся результаты в мультимодальном понимании. Эта модель способна обрабатывать не только текст, но и изображения, а также видео, обеспечивая более глубокое и контекстуально осознанное взаимодействие с информацией. Благодаря инновационной гибридной архитектуре, сочетающей линейное внимание с разреженной смесью экспертов (MoE), она достигает высокой эффективности инференции при активации всего 17 миллиардов параметров из 397 миллиардов общих.

Модели Qwen3.6-27B и Qwen3.6-35B-A3B также являются нативно мультимодальными и поддерживают как режимы «мышления», так и «не-мышления» для задач, связанных со зрением и языком, в рамках единого унифицированного чекпоинта. Это позволяет им эффективно справляться с мультимодальным рассуждением, пониманием документов и визуальными ответами на вопросы, интегрируя визуальную и текстовую информацию. Новые возможности мультимодального рассуждения включают улучшенное понимание пространственных отношений, что подтверждается высокими показателями в бенчмарках, таких как RefCOCO (92.5 для Qwen3.6-27B) и ODInW13 (50.8 для Qwen3.6-35B-A3B).

В контексте мультимодальности, режимы «мышления» (thinking) и «не-мышления» (non-thinking) представляют собой уникальный подход Qwen к обработке задач. В режиме «мышления» модель выделяет время для пошагового рассуждения перед формированием ответа, что идеально подходит для сложных, многоэтапных задач, требующих глубокого анализа. Режим «не-мышления», напротив, обеспечивает быстрые и почти мгновенные ответы, что более подходит для простых запросов, где скорость является приоритетом. Эта гибкость позволяет оптимизировать баланс между интеллектуальной производительностью и вычислительной эффективностью в зависимости от требований конкретной мультимодальной задачи.

Прорывы в агентском кодировании

Alibaba значительно улучшила возможности серии Qwen в области агентского кодирования, представив модели, демонстрирующие передовую производительность и глубокую интеграцию с инструментами разработчиков. Qwen3.7-Max позиционируется как фронтирный агент кодирования, способный выполнять широкий спектр задач — от прототипирования фронтенда до сложного многофайлового проектирования программного обеспечения. Эта модель демонстрирует высокую эффективность в задачах GPU-оптимизации ядер, достигая медианного ускорения в 10.0x над Triton Reference в сценарии с T-Head ZW-M890 PPUs, платформой, которую модель никогда не видела во время обучения. При этом модель автономно выполняла оптимизацию в течение 35 часов, сделав 1158 вызовов инструмента.

Qwen3.6-27B, плотная модель с 27 миллиардами параметров, обеспечивает кодирование агентского уровня, превосходящее предыдущую флагманскую модель Qwen3.5-397B-A17B по всем основным бенчмаркам кодирования. Например, Qwen3.6-27B набрала 77.2 балла по SWE-bench Verified против 76.2 у предшественника, 53.5 против 50.9 по SWE-bench Pro, 59.3 против 52.5 по Terminal-Bench 2.0 и 48.2 против 30.0 по SkillsBench. Это свидетельствует о значительном прорыве в эффективности для плотных моделей. Qwen3.6-35B-A3B, модель с архитектурой MoE (35 миллиардов общих параметров, 3 миллиарда активных), также демонстрирует исключительные возможности агентского кодирования, значительно превосходя своего прямого предшественника Qwen3.5-35B-A3B и конкурируя с гораздо более крупными плотными моделями, такими как Qwen3.5-27B. Предварительная версия Qwen3.6-Max-Preview также показала значительные улучшения в агентском кодировании по сравнению с Qwen3.6-Plus, достигнув лучших результатов по шести основным бенчмаркам кодирования.

Разработчики могут использовать эти модели для автоматизации и оптимизации своих рабочих процессов благодаря их бесшовной интеграции с популярными сторонними помощниками по кодированию, включая OpenClaw, Claude Code и Qwen Code. Модели Qwen доступны через API Alibaba Cloud Model Studio, который поддерживает отраслевые стандартные протоколы, совместимые со спецификациями OpenAI и Anthropic. Это позволяет разработчикам легко внедрять передовые возможности кодирования ИИ в свои существующие инструменты и системы. Однако, документ не раскрывает подробностей о доступности новых моделей и ценообразовании для международных пользователей Alibaba Cloud Model Studio.

Инновации в живом переводе с Qwen3.5-LiveTranslate

Alibaba представила модель Qwen3.5-LiveTranslate-Flash, новейшую разработку в семействе Qwen, предназначенную для синхронного перевода. Эта модель предлагает не просто перевод речи в реальном времени, но и мультимодальный подход, который учитывает визуальный контекст для создания более точных и релевантных переводов. Qwen3.5-LiveTranslate-Flash построена на базе Qwen3.5-Omni и значительно превосходит своего предшественника, Qwen3-LiveTranslate, по всем ключевым параметрам.

Значительно расширилась языковая поддержка: модель теперь понимает 60 языков и говорит на 29 языках, по сравнению с 18 и 10 языками соответственно в предыдущей версии. Это обеспечивает гораздо более широкий охват кросс-языковых комбинаций, что критически важно для международных встреч, локализации прямых трансляций, онлайн-классов и деловых переговоров. Помимо этого, модель достигает сверхнизкой задержки перевода благодаря новой технологии Readable Unit. Средняя задержка речи-в-речь на один токен была снижена до 2.8 секунд, что делает ее идеальной для сценариев, чувствительных к задержке, таких как прямые эфиры и пресс-конференции.

Одной из ключевых инноваций является клонирование голоса в реальном времени. Система автоматически воспроизводит вокальные характеристики говорящего, создавая впечатление, что «один и тот же человек» говорит на разных языках. Это повышает эффект присутствия и сохраняет идентичность говорящего, что особенно важно для стримеров, гостей и ведущих. Модель также эффективно использует визуальный контекст для разрешения неоднозначностей. Когда слово или фраза имеют несколько возможных значений, Qwen3.5-LiveTranslate анализирует то, что видит (текст на экране, объекты или контекст сцены), чтобы выбрать наиболее подходящую интерпретацию, обеспечивая высокую точность и контекстуальную корректность перевода. Дополнительно, функция «горячих слов» (Hotword) позволяет модели распознавать и правильно переводить собственные имена, названия мест, брендов, моделей продуктов и отраслевую терминологию, которую можно динамически настраивать и обновлять в реальном времени, существенно снижая риск ошибочного перевода специфических терминов.

Основы Qwen3: гибридное мышление и языковое разнообразие

В основе серии Qwen3 лежат фундаментальные инновации, такие как гибридные режимы мышления и обширная языковая поддержка. Модели Qwen3 способны переключаться между двумя основными режимами: «Thinking Mode» (режим мышления) и «Non-Thinking Mode» (режим не-мышления). Первый предназначен для решения сложных, многошаговых задач, таких как математические вычисления, кодирование и логический вывод, требующих глубокого и пошагового рассуждения. Второй же обеспечивает быстрые и мгновенные ответы на общие вопросы, где приоритет отдается скорости. Эта гибкость позволяет пользователям оптимизировать баланс между глубиной анализа и вычислительной эффективностью в зависимости от конкретных требований задачи.

Базовые модели Qwen3 обладают обширной многоязычной поддержкой, охватывая 119 языков и диалектов. Это позволяет моделям эффективно работать в глобальном масштабе, предоставляя высококачественные переводы и понимание инструкций на различных языках. Расширенные языковые возможности открывают новые перспективы для создания международных приложений и сервисов. В дополнение к основным языковым моделям, в экосистему Qwen также входят модели для встраивания текста (embedding) и переранжирования (reranking). Серия Qwen3 Embedding, включающая модели с параметрами 0.6B, 4B и 8B, предназначена для преобразования неструктурированного текста в плотные числовые векторы, которые улавливают семантическое значение. Это позволяет машинам измерять сходство между текстами, поддерживая такие задачи, как семантический поиск, кластеризация и классификация. Модели переранжирования уточняют результаты поиска, ранжируя их на основе более тонких показателей релевантности, что значительно повышает точность выдачи.

Что это значит

Непрерывное развитие серии Qwen, включая значительные улучшения в мультимодальности, агентском кодировании и живом переводе, укрепляет позиции Alibaba как ключевого игрока в формировании будущего ИИ. Инвестиции в полноценный ИИ-стек и аппаратные инновации, такие как чип Zhenwu M890 и сервер Panjiu AL128, подчеркивают стратегическое видение компании по обеспечению масштабируемой и эффективной платформы для ИИ-агентов. Эти достижения позволяют разработчикам создавать более мощные и автономные ИИ-решения, открывая путь к новым возможностям в автоматизации и взаимодействии человека с компьютером.

Глоссарий — ключевые термины

Агентское кодирование — Концепция использования ИИ для автономного написания, отладки и модификации кода, а также выполнения других задач, связанных с программированием.

Мультимодальность — Способность системы искусственного интеллекта обрабатывать и понимать информацию из нескольких типов данных, таких как текст, изображения, аудио и видео.

Гибридное мышление — Уникальный подход моделей Qwen3, позволяющий переключаться между режимами глубокого пошагового рассуждения для сложных задач и быстрой генерации ответов для простых запросов.

MoE (Mixture-of-Experts) — Архитектура нейронных сетей, которая использует несколько «экспертных» подсетей, каждая из которых специализируется на обработке различных частей входных данных или типов задач.

Основная статья

  1. Alibaba Cloud has been positioned in the Visionaries quadrant of the 2026 Gartner® Magic Quadrant™ for Communications Platform as a Service, recognized for its AI-enhanced, API-first CPaaS platform.
  2. Alibaba Cloud has been positioned in the Visionaries quadrant of the 2026 Gartner® Magic Quadrant™ for Communications Platform as a Service, recognized for its AI-enhanced, API-first CPaaS platform.
  3. This article explains how Alibaba Cloud NAT Gateway uses SNAT and DNAT to mediate traffic between private VPC workloads and the public internet, and the decisions that shape a sound deployment.
  4. Alibaba Cloud Data Transmission Service (DTS) supports three task types: migration, synchronisation, and subscription, each with distinct mechanics and use cases.
  5. Qwen3.5-LiveTranslate: From Sound to Sight, From Word to Right
  6. Qwen3.5-LiveTranslate: From Sound to Sight, From Word to Right
  7. Qwen3.5-LiveTranslate-Flash is the latest simultaneous interpretation model in the Qwen family, built on top of Qwen3.5-Omni.
  8. Today we introduce Qwen3.7-Max, our latest proprietary model designed for the agent era.
  9. Alibaba Announces Comprehensive Full-Stack AI Upgrade for the Agentic Era

Дополнительные источники

  1. Qwen3: Think Deeper, Act Faster
  2. Qwen3.5: Towards Native Multimodal Agents
  3. Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model