Alibaba Qwen-AgentWorld: модель, которая сама симулирует мир для ИИ-агентов

Обычно ИИ-агентов учат действовать в интерактивных средах. Но до сих пор ни одна языковая модель не была явно натренирована моделировать сами эти среды, то есть предсказывать, что произойдёт дальше после действия агента. Alibaba Cloud выпустила Qwen-AgentWorld, языковую модель мира, которая меняет этот подход, симулируя среду агентов в семи различных областях.

Qwen-AgentWorld — это нативная языковая модель мира, которая моделирует динамику среды как основную цель тренировки. Её обучают в три этапа: непрерывное предварительное обучение (CPT), тонкая настройка с учителем (SFT) и обучение с подкреплением (RL). Для визуальных сред, таких как Android или веб, модель использует не пиксели, а рендеринг кода (XML, HTML) для текстового моделирования.

Модель охватывает семь категорий интерактивных сред:

Текстовые: MCP, Поиск, Терминал, Разработка ПО (SWE).
Графические (GUI): Веб, Операционные системы, Android. Знания передаются между этими областями, позволяя одной модели работать во всех доменах.

На собственном бенчмарке AgentWorldBench, Qwen-AgentWorld-397B-A17B показала наивысшее качество симуляции, превзойдя GPT-5.4, Claude Opus 4.8 и Gemini 3.1 Pro. Меньшая версия, Qwen-AgentWorld-35B-A3B, также обошла Claude Sonnet 4.6. AgentWorldBench — это новый эталон, созданный на основе реальных взаимодействий моделей в девяти существующих бенчмарках, оценивающий симуляцию по пяти измерениям: формат, фактуальность, согласованность, реализм и качество.

Модели мира важны для обучения агентов не как замена реальным средам, а как дополнение. Они предлагают масштабируемость и управляемость, позволяя создавать сценарии и целевые возмущения, которые трудно или невозможно воспроизвести в реальности. Это помогает агентам лучше справляться с редкими случаями, не охваченными обучением в реальной среде.

Кроме того, модель позволяет агентам выполнять внутреннее планирование, предсказывая будущие состояния среды до совершения действия. В режиме симуляционного обучения с подкреплением (Sim RL) Qwen-AgentWorld заменяет реальную среду. Тесты показали, что она способна к обобщению без предварительной настройки (zero-shot generalization) на 4000 сред OpenClaw, не виденных при обучении. Контролируемая симуляция с целенаправленными возмущениями повышает эффективность обучения, превосходя обучение только в реальной среде (например, 50.3% F1 против 45.6% F1 для задач поиска).

Модели Qwen-AgentWorld и бенчмарк AgentWorldBench доступны на платформах Hugging Face и ModelScope.

Qwen-AgentWorld предлагает не просто новую среду для обучения, но и новый способ для агентов «мыслить» — предсказывать последствия своих действий до их совершения. Этот подход, основанный на моделировании динамики среды, является важным шагом к созданию более надёжных и адаптивных ИИ-агентов. Однако его успех будет зависеть от того, насколько широко сообщество сможет воспроизвести и верифицировать заявленные Alibaba преимущества в масштабируемости и контроле.

Alibaba Qwen-AgentWorld: модель, которая сама симулирует мир для ИИ-агентов daily

Дополнительные источники

Источники

Оценить материал