Phi-Ground-Any: Модель для точного взаимодействия с UI

Hero illustration: Phi-Ground-Any: Модель для точного взаимодействия с UI.

Стоит читать если: вы работаете с мультимодальными моделями для UI-автоматизации или используете Copilot в Microsoft 365 и хотите знать об улучшениях. Можно пропустить если: вы не занимаетесь AI-автоматизацией интерфейсов и не используете Microsoft 365 Copilot.

Phi-Ground-Any: Модель для пиксельной точности в UI

Новый член семейства Phi-Ground. Модель phi-ground-any (также известная как Phi-Ground-Any-4B) представляет собой открытый весовой вариант, доработанный на базе phi-3-5-vision-instruct. Её основное назначение — интерактивное взаимодействие с графическими пользовательскими интерфейсами, требующее точного определения координат.

Строгие требования к вводу изображений. Модель разработана с фиксированным входным разрешением 1680x1008 пикселей. Это эквивалентно канве из 5x3 плиток по 336 пикселей каждая. В документации указан пример предобработки изображений с использованием PIL.Image, который включает изменение размера и «вписывание» исходного изображения в эту фиксированную канву с сохранением пропорций.

from PIL import Image
def process_image(img):
    target_width, target_height = 336 * 5, 336 * 3
    img_ratio = img.width / img.height
    target_ratio = target_width / target_height
    if img_ratio > target_ratio:
        new_width = target_width
        new_height = int(new_width / img_ratio)
    else:
        new_height = target_height
        new_width = int(new_height * img_ratio)
    reshape_ratio = new_width / img.width
    img = img.resize((new_width, new_height), Image.LANCZOS)
    new_img = Image.new("RGB", (target_width, target_height), (255, 255, 255))
    paste_position = (0, 0)
    new_img.paste(img, paste_position)
    return new_img, reshape_ratio

Формат вывода и восстановление координат. Модель выдает координаты кликов в формате <x>VALUE</x><y>VALUE</y>, где VALUE — это относительная координата в диапазоне [0, 10000] на заполненной канве. Для получения пиксельных координат в исходном изображении требуется последующий парсинг и обратное масштабирование с использованием reshape_ratio.

import re
target_width, target_height = 336 * 5, 336 * 3
SCALE = 10000.0
x_pattern = re.compile(r"<x>\s*(-?\d+(?:\.\d+)?)\s*</x>")
y_pattern = re.compile(r"<y>\s*(-?\\d+(?:\\.\\d+)?)\\s*</y>")

def parse_xy(model_output: str):
    xs = [float(v) for v in x_pattern.findall(model_output)]
    ys = [float(v) for v in y_pattern.findall(model_output)]
    return list(zip(xs, ys))

def to_original_pixel(rel_xy, reshape_ratio: float):
    x_rel, y_rel = rel_xy
    px = (x_rel / SCALE) * target_width / reshape_ratio
    py = (y_rel / SCALE) * target_height / reshape_ratio
    return px, py

Для работы с моделью необходимы специфические версии библиотек, такие как flash_attn==2.5.8, numpy==1.24.4, Pillow==10.3.0, torch==2.3.0, transformers==4.43.0 и accelerate==0.30.0.

Модель на Hugging Face

GPT-5.5 Instant в Copilot: Улучшения для рабочих задач

Новая модель для повседневной работы. OpenAI gpt-5-5-instant теперь доступен в microsoft-365-copilot и microsoft-copilot-studio. Эта интеграция нацелена на улучшение качества ответов для широкого круга повседневных рабочих задач.

Более точные и лаконичные ответы. Заявлено, что новая модель обеспечивает более точные и менее многословные ответы, сокращая необходимость в дополнительных уточняющих вопросах. Это должно ускорить получение полезной информации в рабочих процессах.

Улучшенная производительность в специфических задачах. GPT-5.5 Instant демонстрирует повышенную производительность в задачах, связанных с анализом изображений, а также в STEM-областях (наука, технология, инженерия, математика).

Приоритетный доступ для лицензированных пользователей. Пользователи с лицензией Microsoft 365 Copilot получат приоритетный доступ к GPT-5.5 Instant. Остальные пользователи получат стандартный доступ. Развертывание уже началось, модель появится в Copilot Chat как «GPT-5.5 Quick response» в селекторе моделей, а для разработчиков агентов в Copilot Studio — как «GPT-5.5 Chat».

Анонс в Microsoft Tech Community

Что это значит

Стратегия Microsoft в области AI продолжает развиваться по двум направлениям. С одной стороны, компания активно участвует в развитии открытых моделей, таких как Phi-Ground-Any, предлагая сообществу инструменты для решения специфических задач вроде UI-автоматизации. С другой — интегрирует передовые закрытые модели от OpenAI, такие как GPT-5.5 Instant, в свои ключевые продукты для повышения продуктивности пользователей. Для инженеров это означает расширение выбора инструментов: как для кастомизированных решений, так и для использования в готовых корпоративных продуктах.

Ссылки:

Phi-Ground-Any: Модель для точного взаимодействия с UI daily

Phi-Ground-Any: Модель для пиксельной точности в UI

GPT-5.5 Instant в Copilot: Улучшения для рабочих задач

Что это значит

Источники

Оценить материал