Стоит читать если: вы работаете с мультимодальными моделями для UI-автоматизации или используете Copilot в Microsoft 365 и хотите знать об улучшениях. Можно пропустить если: вы не занимаетесь AI-автоматизацией интерфейсов и не используете Microsoft 365 Copilot.
Phi-Ground-Any: Модель для пиксельной точности в UI
Новый член семейства Phi-Ground. Модель phi-ground-any (также известная как Phi-Ground-Any-4B) представляет собой открытый весовой вариант, доработанный на базе phi-3-5-vision-instruct. Её основное назначение — интерактивное взаимодействие с графическими пользовательскими интерфейсами, требующее точного определения координат.
Строгие требования к вводу изображений. Модель разработана с фиксированным входным разрешением 1680x1008 пикселей. Это эквивалентно канве из 5x3 плиток по 336 пикселей каждая. В документации указан пример предобработки изображений с использованием PIL.Image, который включает изменение размера и «вписывание» исходного изображения в эту фиксированную канву с сохранением пропорций.
from PIL import Image
def process_image(img):
target_width, target_height = 336 * 5, 336 * 3
img_ratio = img.width / img.height
target_ratio = target_width / target_height
if img_ratio > target_ratio:
new_width = target_width
new_height = int(new_width / img_ratio)
else:
new_height = target_height
new_width = int(new_height * img_ratio)
reshape_ratio = new_width / img.width
img = img.resize((new_width, new_height), Image.LANCZOS)
new_img = Image.new("RGB", (target_width, target_height), (255, 255, 255))
paste_position = (0, 0)
new_img.paste(img, paste_position)
return new_img, reshape_ratio
Формат вывода и восстановление координат. Модель выдает координаты кликов в формате <x>VALUE</x><y>VALUE</y>, где VALUE — это относительная координата в диапазоне [0, 10000] на заполненной канве. Для получения пиксельных координат в исходном изображении требуется последующий парсинг и обратное масштабирование с использованием reshape_ratio.
import re
target_width, target_height = 336 * 5, 336 * 3
SCALE = 10000.0
x_pattern = re.compile(r"<x>\s*(-?\d+(?:\.\d+)?)\s*</x>")
y_pattern = re.compile(r"<y>\s*(-?\\d+(?:\\.\\d+)?)\\s*</y>")
def parse_xy(model_output: str):
xs = [float(v) for v in x_pattern.findall(model_output)]
ys = [float(v) for v in y_pattern.findall(model_output)]
return list(zip(xs, ys))
def to_original_pixel(rel_xy, reshape_ratio: float):
x_rel, y_rel = rel_xy
px = (x_rel / SCALE) * target_width / reshape_ratio
py = (y_rel / SCALE) * target_height / reshape_ratio
return px, py
Для работы с моделью необходимы специфические версии библиотек, такие как flash_attn==2.5.8, numpy==1.24.4, Pillow==10.3.0, torch==2.3.0, transformers==4.43.0 и accelerate==0.30.0.
GPT-5.5 Instant в Copilot: Улучшения для рабочих задач
Новая модель для повседневной работы. OpenAI gpt-5-5-instant теперь доступен в microsoft-365-copilot и microsoft-copilot-studio. Эта интеграция нацелена на улучшение качества ответов для широкого круга повседневных рабочих задач.
Более точные и лаконичные ответы. Заявлено, что новая модель обеспечивает более точные и менее многословные ответы, сокращая необходимость в дополнительных уточняющих вопросах. Это должно ускорить получение полезной информации в рабочих процессах.
Улучшенная производительность в специфических задачах. GPT-5.5 Instant демонстрирует повышенную производительность в задачах, связанных с анализом изображений, а также в STEM-областях (наука, технология, инженерия, математика).
Приоритетный доступ для лицензированных пользователей. Пользователи с лицензией Microsoft 365 Copilot получат приоритетный доступ к GPT-5.5 Instant. Остальные пользователи получат стандартный доступ. Развертывание уже началось, модель появится в Copilot Chat как «GPT-5.5 Quick response» в селекторе моделей, а для разработчиков агентов в Copilot Studio — как «GPT-5.5 Chat».
Анонс в Microsoft Tech Community
Что это значит
Стратегия Microsoft в области AI продолжает развиваться по двум направлениям. С одной стороны, компания активно участвует в развитии открытых моделей, таких как Phi-Ground-Any, предлагая сообществу инструменты для решения специфических задач вроде UI-автоматизации. С другой — интегрирует передовые закрытые модели от OpenAI, такие как GPT-5.5 Instant, в свои ключевые продукты для повышения продуктивности пользователей. Для инженеров это означает расширение выбора инструментов: как для кастомизированных решений, так и для использования в готовых корпоративных продуктах.
Ссылки: