AI News Watcher
Monday, Jun 8, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 08, 2026 · 2 min read · Alibaba ← Back to feed

Qwen3.7-Plus видит экран, управляет GUI и пишет код — в одном агентном цикле daily

Входные токены — $0.40 за миллион, контекст — 1 млн токенов; работает из Claude Code, Cursor и Cline без дополнительной настройки.

Qwen3.7-Plus видит экран, управляет GUI и пишет код — в одном агентном цикле
Редакция · Daily briefing

Раньше агент, который «видит» экран, и агент, который пишет код, — это были разные инструменты. Alibaba выпустила Qwen3.7-Plus: мультимодальная модель, которая в одном цикле читает скриншот, кликает по GUI, генерирует код и автоматизирует мобильное приложение — без передачи управления между компонентами.

Что умеет модель. Qwen3.7-Plus занимает пятое место на Vision Arena — независимом рейтинге VLM по предпочтениям людей. Ключевая способность — «мультимодальный гибридный агент»: воспринимает реальные сцены, читает экраны, управляет GUI, генерирует код по визуальным референсам, проходит мобильные приложения end-to-end. Всё это — в одном агентном цикле, а не в цепочке специализированных компонентов. Модель работает через Claude Code, Cursor, Cline, Qwen Code и другие фреймворки без дополнительной настройки.

Цена и доступность. Модель доступна через Alibaba Cloud Model Studio: $0.40 за млн входных токенов, $1.60 за млн выходных, контекстное окно — 1 млн токенов. Одновременно вышел открытый CLI для Model Studio на GitHub: одна команда плюс API-ключ дают агенту доступ к 150+ моделям — текст, изображения, видео, аудио, включая DeepSeek и Kimi.

Реальный кейс — диагностика свиней за секунды. Alibaba запустила партнёрство с Muyuan Group, крупным производителем свинины. Агент на базе Qwen анализирует 18 типов структурированных данных: позу животного, историю болезни, условия содержания — и автоматически генерирует диагностический отчёт с оценкой затрат. Приложение «Xiaomu Assistant» сократило время осмотра партии из ~600 свиней с 20 минут до нескольких секунд; ввод — голос или фото прямо с телефона.

Картина складывается: Alibaba строит агентную платформу, где одна модель закрывает весь стек — вижу, думаю, кликаю, пишу код, — а CLI делает её доступной из любого агентного инструмента за одну команду. Честный пробел: вендор не раскрыл данных о латентности в GUI-режиме и о поведении модели на длинных агентных сессиях. Именно это критично для production, и без этих цифр заявка на «один агент вместо цепочки» остаётся на слове Alibaba.

Дополнительные источники

  1. Qwen3.7-Plus: Multimodal Agent Intelligence | Qwen
  2. openrouter.ai
  3. models
  4. alibabacloud.com

Источники

  1. https://www.alibabacloud.com/blog/alibaba-launches-qwen3-7-plus-ai-swine-diagnosis-assistant-and-model-studio-cli_603230 blog
→ Опубликовано в Telegram: @agentic_ai_news/465