Microsoft SkillOpt: агенты учатся сами — без переобучения модели

Надёжность AI-агентов часто страдает из-за того, что их инструкции или «навыки» приходится постоянно править. Это ручной и непредсказуемый процесс, который ведёт к ошибкам и «дрейфу промптов» (неконтролируемому изменению промптов). Microsoft Research предлагает SkillOpt — систему, которая превращает редактирование навыков в процесс обучения, делая поведение агентов более надёжным без изменения весов основной модели.

SkillOpt рассматривает файл навыков агента как обучаемый параметр, отдельный от замороженной целевой модели. Это позволяет оптимизировать навыки, не затрагивая базовую нейросеть. Процесс оптимизации SkillOpt организован как цикл «прямой проход — обратный проход — обновление» в текстовом пространстве:

Прямой проход — замороженная целевая модель выполняет пакет обучающих задач с текущим навыком.
Обратный проход — отдельная модель-оптимизатор читает полученные траектории, выделяя успешные паттерны и ошибки.
Обновление — оптимизатор предлагает небольшие текстовые правки (добавление, удаление, замена), которые затем объединяются и ранжируются. Каждый кандидат на навык проходит строгую валидацию: он принимается, только если показывает лучшие результаты на отложенной выборке. Отклонённые правки не теряются, а служат негативной обратной связью.

Такой подход обеспечивает контролируемость и аудируемость оптимизации. SkillOpt показал стабильные улучшения производительности по 52 оценочным метрикам на шести бенчмарках, семи целевых моделях и трёх режимах выполнения, включая GPT-5.5 и Qwen3.5-4B. Оптимизированные навыки остаются компактными, переносятся между моделями разных масштабов, средами агентов и схожими задачами. Microsoft также представила SkillOpt-Sleep — автономный ночной компаньон для локальных агентов, который анализирует прошлые сессии и закрепляет проверенные навыки.

Помимо оптимизации навыков, Microsoft работает над улучшением памяти агентов. Система Memora призвана решить проблему неэффективного хранения и извлечения информации для долгосрочных задач. Memora разделяет то, что хранится (богатое содержимое памяти), и то, как это извлекается (легковесные абстракции и якорные подсказки). Это позволяет агентам масштабировать свои возможности, объединять связанную информацию и получать детали без необходимости перечитывать всю историю. Memora показала новые лучшие результаты на бенчмарках LoCoMo и LongMemEval, используя до 98% меньше токенов контекста.

Эти исследования дополняет углублённая интеграция GitHub Copilot в JetBrains AI Assistant. Теперь Copilot является опцией первого класса в инструменте выбора агента JetBrains AI Assistant, позволяя разработчикам выбирать модель Copilot и настраивать глубину рассуждений в чате. Copilot может выполнять многоэтапную работу, предлагать изменения, выполнять команды и взаимодействовать с пользователем.

SkillOpt и Memora представляют собой фундаментальные шаги Microsoft к созданию более автономных и надёжных AI-агентов, способных учиться и помнить в долгосрочной перспективе. Интеграция Copilot в JetBrains демонстрирует, как эти концепции начинают проникать в реальные инструменты разработки, предлагая инженерам новые способы взаимодействия с ИИ-помощниками.

Microsoft SkillOpt: агенты учатся сами — без переобучения модели daily

Дополнительные источники

Источники

Оценить материал