Qwen-VLA: От осмысления к активному вмешательству в реальный мир

Hero illustration: Qwen-VLA: От осмысления к активному вмешательству в реальный мир.

О чём эта новость

Qwen-VLA — это унифицированная модель «зрение-язык-действие», переходящая от пассивного восприятия к активному вмешательству.подробнее →
Модель использует DiT-декодер и обусловливание с учетом воплощения для генерации непрерывных действий.подробнее →
Qwen-VLA показала высокие результаты на бенчмарках по манипуляции и навигации, демонстрируя обобщение.подробнее →
Разработка знаменует прогресс в создании фундаментальных моделей для робототехники.подробнее →

Alibaba представила новую исследовательскую работу, посвященную Qwen-VLA — мультимодальной большой языковой модели, разработанной для понимания и взаимодействия с реальным миром. Вместо того чтобы ограничиваться лишь интерпретацией визуальных данных, Qwen-VLA делает шаг вперед, стремясь активно действовать на основе этого понимания, что приближает нас к воплощению по-настоящему интерактивных и автономных систем. Эта разработка знаменует собой важный сдвиг в направлении создания искусственного интеллекта, способного не только воспринимать, но и эффективно манипулировать физической средой.

Представление Qwen-VLA: шаг к роботизированному интеллекту

Qwen-VLA, разработанная исследователями Alibaba, представляет собой унифицированную модель «зрение-язык-действие» (VLA), которая знаменует собой критический шаг в эволюции воплощенного ИИ. Это не просто улучшенная мультимодальная модель; Qwen-VLA качественно меняет парадигму взаимодействия ИИ с миром, переходя от пассивного восприятия и понимания к активному, целенаправленному вмешательству [https://qwen.ai/research]. Традиционные мультимодальные модели, такие как большие визуально-языковые модели (VLM), превосходно справляются с интерпретацией изображений, ответами на вопросы о визуальном контенте и созданием описаний. Однако их возможности ограничиваются когнитивными задачами, не затрагивая непосредственное физическое взаимодействие. Qwen-VLA же расширяет этот функционал, позволяя генерировать не только текстовые или визуальные ответы, но и конкретные моторные команды, которые робот может выполнять в реальной среде [].

Основная цель создания Qwen-VLA — объединить разнообразные задачи принятия решений, связанные с физическим воплощением, в рамках единой архитектуры и подхода к обучению. До сих пор воплощенный интеллект часто изучался с помощью специализированных моделей для отдельных задач, таких как манипуляция или навигация, что приводило к фрагментированным возможностям и ограниченной способности к обобщению между задачами, средами и платформами роботов []. Qwen-VLA стремится преодолеть эти ограничения, предлагая универсальную основу, которая может обрабатывать и манипуляцию, и навигацию, и предсказание траекторий. Это достигается за счет расширения существующего стека Qwen для визуально-языкового моделирования от чистого восприятия, понимания и рассуждения до генерации непрерывных действий и траекторий. Модель обучается с использованием крупномасштабного совместного предварительного обучения на разнообразных источниках данных, включая траектории манипуляций роботов, эгоцентрические демонстрации людей, синтетические данные моделирования, данные для визуально-языковой навигации, а также вспомогательные визуально-языковые данные.

Почему переход к "действию" важен для ИИ? Способность ИИ не только понимать мир, но и активно влиять на него, является фундаментальным требованием для создания по-настоящему интеллектуальных и адаптивных систем. Роботы, способные воспринимать окружающую среду через зрение, обрабатывать языковые инструкции и затем преобразовывать их в физические действия, могут выполнять гораздо более сложные и разнообразные задачи. Это позволяет им работать в динамичных, неструктурированных средах, приспосабливаться к изменениям и демонстрировать способности к обобщению, которые были недоступны для более узкоспециализированных систем. Например, робот, оснащенный Qwen-VLA, может не просто идентифицировать объект, но и взять его, переместить в указанное место, или даже выполнить последовательность действий для сборки чего-либо, основываясь на устной инструкции. В источниках нет данных о долгосрочных этических соображениях, связанных с предоставлением ИИ таких широких возможностей для действия в реальном мире, что подчеркивает необходимость дальнейшего изучения потенциальных рисков и разработки соответствующих руководств по безопасному и ответственному использованию подобных технологий. Эта модель открывает двери для создания более универсальных и адаптируемых роботизированных систем, которые могут стать основой для будущего воплощенного ИИ и человекоподобных роботов.

Технические инновации и архитектура Qwen-VLA

Архитектура Qwen-VLA интегрирует несколько ключевых инноваций, позволяющих ей эффективно преобразовывать высокоуровневое понимание в конкретные физические действия. В основе модели лежит расширенный стек Qwen для визуально-языкового моделирования, который дополнен возможностью генерации непрерывных действий и траекторий []. Это достигается за счет использования DiT-декодера действий (DiT-based action decoder), который является специализированным компонентом архитектуры Qwen-VLA, отвечающим за генерацию последовательностей непрерывных моторных команд и траекторий движения. Этот декодер позволяет модели точно управлять роботом, переводя абстрактные инструкции в плавные и координированные движения.

Для обучения Qwen-VLA использовался масштабный подход к совместному предварительному обучению на разнообразных источниках данных. Это включает обширные наборы данных, охватывающие:

Траектории манипуляций роботов: реальные записи движений роботов, выполняющих различные задачи.
Эгоцентрические демонстрации людей: видеозаписи от первого лица, показывающие, как люди взаимодействуют с объектами.
Синтетические данные моделирования: данные, сгенерированные в симулированных средах, что позволяет модели обучаться в контролируемых условиях и масштабировать обучение.
Данные для визуально-языковой навигации: наборы данных, где робот должен следовать инструкциям и ориентироваться в среде.
Наблюдение, ориентированное на траекторию: данные, фокусирующиеся на последовательностях движений и их результатах.
Вспомогательные визуально-языковые данные: общие данные из интернета, которые расширяют понимание моделью визуального и языкового контекста [].

Для поддержки различных робототехнических платформ в Qwen-VLA внедрена концепция "обусловленности с учетом воплощения" (embodiment-aware prompt conditioning). Этот метод позволяет адаптировать модель к конкретному роботу и его системе управления с помощью текстовых описаний. Путем предоставления модели информации о текущем "воплощении" (например, о типе робота, его манипуляторах, степенях свободы и conventions управления), Qwen-VLA может генерировать действия, специфичные для этой платформы. Это делает модель более универсальной и позволяет легко переносить ее на новые аппаратные конфигурации без необходимости полного переобучения, что значительно ускоряет разработку и развертывание в реальных условиях.

Производительность и возможности в реальных условиях

Производительность Qwen-VLA была тщательно оценена на множестве бенчмарков, охватывающих манипуляцию, навигацию и предсказание траекторий, что демонстрирует ее выдающиеся способности к обобщению и решению сложных задач в различных средах. Модель показала впечатляющие результаты в нескольких ключевых областях []:

На бенчмарке LIBERO (Library of Embodied Robot Operations) Qwen-VLA-Instruct достигла 97,9% успеха, что указывает на высокую эффективность в выполнении широкого спектра задач манипуляции.
В задачах манипуляции на Simpler-WidowX модель показала 73,7% успеха, а на RoboTwin-Easy/Hard — 86,1%/87,2% соответственно, что подтверждает ее способность к точным и надежным операциям.
В задачах визуально-языковой навигации, таких как R2R (Room-to-Room), Qwen-VLA продемонстрировала 69,0% успеха по метрике OSR (Oracle Success Rate), а на RxR (Room-for-Room) — 59,6% по метрике SR (Success Rate), что говорит о ее способности эффективно ориентироваться и достигать целей по языковым инструкциям.
Что касается взаимодействия в реальном мире, Qwen-VLA показала 76,9% среднего успеха в экспериментах ALOHA, проводимых вне распределения данных (OOD), а также 26,6% успеха в сценариях динамической манипуляции DOMINO с нулевой выборкой []. Эти результаты подчеркивают способность модели обобщать полученные знания на новые, ранее невиданные ситуации и среды, что критически важно для развертывания в реальном мире.

Конкретные сценарии использования, продемонстрированные Qwen-VLA, включают сложные операции с объектами, навигацию в незнакомых помещениях и выполнение многоэтапных задач, которые требуют глубокого понимания контекста и точного планирования. Модель способна не только выполнять дискретные действия, но и генерировать непрерывные траектории, что позволяет роботам осуществлять более плавные и естественные движения. Например, Qwen-VLA может взять конкретный предмет со стола, перенести его в другое место, обойти препятствия и реагировать на изменения в окружающей среде в реальном времени. Однако, несмотря на впечатляющие результаты, в источниках отсутствуют подробности о вычислительных ресурсах, необходимых для развертывания Qwen-VLA в реальных робототехнических системах, что может стать ключевым фактором для практического применения. Это остается открытым вопросом для разработчиков и исследователей, планирующих внедрение подобных моделей.

Qwen-VLA в сравнении с конкурентами

Qwen-VLA позиционируется как значительный шаг вперед в области моделей «зрение-язык-действие» (VLA), предлагая ряд уникальных преимуществ по сравнению с существующими решениями, такими как Google RT-2. Хотя обе модели стремятся объединить понимание языка и визуальных данных с генерацией действий, Qwen-VLA выделяется своим унифицированным подходом к решению гетерогенных задач воплощенного принятия решений []. RT-2, как и Qwen-VLA, использует крупномасштабные языковые и визуальные модели, обученные на веб-данных, для получения знаний, которые затем переносятся на робототехнические задачи. RT-2, например, строится на базе моделей PaLI-X и PaLM-E, адаптируя их для управления роботом путем представления действий в виде токенов [].

Ключевое отличие Qwen-VLA заключается в ее архитектуре, которая включает DiT-декодер действий для генерации непрерывных действий и траекторий, а также уникальный механизм "обусловленности с учетом воплощения". Последний позволяет модели адаптироваться к различным робототехническим платформам через текстовые описания, что делает Qwen-VLA более гибкой и легко переносимой между различными "телами" роботов без необходимости сложной перенастройки или переобучения []. В то время как RT-2 продемонстрировала улучшенные возможности обобщения и семантического понимания за пределами данных робототехники, на которых она обучалась, включая интерпретацию новых команд и элементарное рассуждение о категориях объектов, Qwen-VLA делает акцент на бесшовной интеграции манипуляции, навигации и предсказания траекторий в единую структуру.

Что касается обработки данных, обе модели используют комбинацию веб-данных и робототехнических данных. RT-2 обучалась на данных от 13 роботов в течение 17 месяцев в офисной кухонной среде, дополняя их масштабными веб-наборами данных []. Qwen-VLA также применяет крупномасштабное совместное предварительное обучение на разнообразных источниках, включая траектории манипуляций роботов, человеческие эгоцентрические демонстрации, синтетические данные и визуально-языковые данные для навигации. Преимущество Qwen-VLA заключается в ее целостном подходе к объединению этих источников в рамках одного фреймворка, что позволяет ей демонстрировать сильную производительность по нескольким задачам и обобщение вне распределения данных при изменении сцены, фона, освещения и конфигурации объектов.

Развитие в линейке Qwen-VL

Qwen-VLA представляет собой логическое продолжение и значительное развитие линейки мультимодальных моделей Qwen-VL от Alibaba, расширяя их возможности в сторону активного взаимодействия с физическим миром. Предыдущие модели, такие как Qwen-VL-Plus и Qwen-VL-Max, уже зарекомендовали себя как мощные инструменты для детального распознавания, интерпретации изображений и следования инструкциям []. Qwen-VL-Plus, например, был значительно улучшен для распознавания деталей и текста, поддерживая сверхвысокое разрешение изображений до миллионов пикселей. Qwen-VL-Max же обеспечивал еще более высокий уровень визуального рассуждения и когнитивного понимания, демонстрируя оптимальную производительность в широком диапазоне сложных визуальных задач.

Основное новшество, которое Qwen-VLA добавляет к этой линейке, — это переход от чистого восприятия и понимания к генерации непрерывных действий и траекторий. В то время как Qwen-VL-Plus и Qwen-VL-Max были сфокусированы на когнитивных аспектах визуального ИИ, Qwen-VLA вводит возможность для модели непосредственно влиять на реальный мир через робототехнические платформы []. Это преобразование когнитивного интеллекта в воплощенный является ключевым шагом, позволяя моделям Qwen не только "видеть" и "думать", но и "делать". Таким образом, Qwen-VLA расширяет функционал семейства Qwen-VL, предоставляя способность к активному вмешательству и физической манипуляции, что открывает новые горизонты для применения в робототехнике.

Перспективы для фундаментальных моделей робототехники

Появление Qwen-VLA играет ключевую роль в развитии фундаментальных моделей для робототехники (RFM), представляя собой новый шаг к созданию универсального интеллекта для роботов. RFM — это новый класс моделей ИИ, предназначенных для обобщения по задачам, сенсорным модальностям и воплощениям роботов, подобно тому как GPT преобразовали понимание естественного языка []. Qwen-VLA, с ее способностью объединять зрение, язык и действие в единой архитектуре, идеально соответствует этой парадигме, стремясь стать универсальным слоем интеллекта для роботов, который позволит им воспринимать, планировать и действовать в разнообразных реальных средах.

Qwen-VLA способствует созданию более адаптируемых роботов благодаря своей способности к обобщению и переносу знаний между различными платформами и задачами. Механизм "обусловленности с учетом воплощения" позволяет роботам, использующим Qwen-VLA, гибко адаптироваться к новым сценариям, даже если они не были явно представлены в обучающих данных. Это критически важно для будущего человекоподобных роботов и других автономных агентов, которым необходимо функционировать в сложных и постоянно меняющихся условиях.

Общие тенденции в воплощенном ИИ, подчеркиваемые появлением Qwen-VLA, включают движение к более интегрированным и универсальным моделям, способным осваивать широкий спектр навыков из обширных и разнообразных наборов данных. Однако, в источниках нет конкретных планов по коммерциализации или открытому доступу к модели Qwen-VLA, что оставляет вопрос о ее доступности и широком внедрении открытым.

Что это значит

Qwen-VLA нацелена на автономное восприятие, рассуждение и действие роботов в реальных средах, что выходит за рамки чистого анализа и понимания. Сможет ли она обеспечить заявленную степень автономности и адаптивности в реальных условиях, покажет время.

Qwen-VLA: От осмысления к активному вмешательству в реальный мир daily