Qwen-Robot Suite: Alibaba научила языковые модели управлять роботами

Языковая модель может сказать «возьми красную чашку и поставь на полку» — но не может отдать моторные команды, чтобы это сделать. Alibaba выпустила Qwen-Robot Suite: три фундаментальные модели, которые переводят языковые инструкции в физические действия роботов — и заняли первые строчки в десятках робототехнических бенчмарков.

Центральный результат — Qwen-RobotManip, модель для управления манипуляторами. Она обучена на более чем 38 100 часах исключительно открытых данных: 11 320 часов реальных робото-данных и 24 808 часов синтетики, полученной из человеческого видео с перепроецированием на 15 типов роботов. Единое 80-мерное представление состояний и действий позволяет одной модели работать на разных механических платформах — промышленном манипуляторе, сервисном роботе, роботе с дактильной кистью — без переобучения под каждую. На бенчмарке RoboChallenge модель заняла первое место с 45% успешных выполнений, опередив третье место на 20 процентных пунктов, и показала трёхкратное улучшение над предыдущим лучшим результатом в переносе навыков между разными типами роботов.

Две другие модели закрывают задачи передвижения и симуляции:

Qwen-RobotNav — навигация. Обучена на 15,6 млн примеров, один набор весов покрывает пять доменов: следование инструкциям, поиск объектов, слежение за целью, автономное вождение и воплощённые вопросно-ответные задачи. Результаты: 76,5% на VLN-CE RxR, 91,4 PDMS на NAVSIM. Развёрнута zero-shot на четвероногом роботе Unitree Go2 без какого-либо дообучения под конкретную среду.
Qwen-RobotWorld — видеомодель мира. Обучена на 8,6 млн видео-текстовых пар (более 200 млн кадров, 20+ типов роботов, 500 категорий действий). Генерирует синтетические тренировочные данные и симулирует будущие траектории до того, как робот начнёт их исполнять.

Архитектурная ставка Alibaba — модели как инструменты агентных систем. Общий планировщик на базе Qwen3.7-Plus декомпозирует долгосрочную цель на подзадачи и вызывает Qwen-RobotNav как обычный tool call, переключая режим навигации прямо в процессе выполнения. На бенчмарке EXPRESS-Bench это даёт +15,4% к результату при 77% сокращении числа навигационных шагов. Пилотное тестирование с корпоративными клиентами Alibaba Cloud в секторе робототехники уже запущено.

Ключевой тезис команды — «alignment is the prerequisite for scale»: без единого представления данных масштабирование даёт конфликт между источниками, а не синергию. Именно это объясняет, почему открытые данные здесь сработали там, где раньше казалась необходимой дорогая проприетарная сборка. Честный пробел: Alibaba не раскрыла условия корпоративного пилота — ни цены, ни метрик реального производственного использования, ни сроков публичного релиза весов моделей.

Qwen-Robot Suite: Alibaba научила языковые модели управлять роботами daily

Дополнительные источники

Источники

Оценить материал