AI News Watcher
Friday, Jun 19, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 19, 2026 · 1 min read · Microsoft AI ← Back to feed

Microsoft проверила симуляторы пользователей на 1 200 разговорах — и нашла неожиданный результат daily

Восемь метрик USR-8 показали: качество симулятора определяет промпт, а не код фреймворка.

Microsoft проверила симуляторы пользователей на 1 200 разговорах — и нашла неожиданный результат
Редакция · Daily briefing

Если тест-стенд врёт — оценки агента бессмысленны. Microsoft прогнала четыре конфигурации симулятора через 1 200 диалогов в трёх доменах и получила неожиданный вывод: один и тот же промпт в стороннем фреймворке даёт почти те же результаты, что и в Foundry.

USR-8 — восемь ортогональных метрик для оценки самого симулятора, а не агента. Они разделяют поведение и стиль и вскрывают сбои, которые единая агрегированная оценка скрывает. Симулятор, заканчивающий каждый ответ фразой «Спасибо за помощь!», тихо завышает скор агента. Симулятор-«тренер», который подсказывает агенту («сначала проверьте тарифные правила»), прячет его реальные ошибки. Ни тот ни другой изъян не виден из итоговой цифры агента — USR-8 их разделяет.

Главный эмпирический вывод: промпт важнее платформы. Foundry-симулятор набрал потолочные значения по всем метрикам кроме реализма. Небольшая правка промпта существенно улучшила реализм. Тот же промпт, загруженный в сторонний фреймворк, дал схожие результаты по тем же метрикам. Вывод Microsoft: менять оркестрацию ради качества симуляции бессмысленно — качество живёт в промпте.

Отдельный практический момент — два несовместимых сценария использования симулятора:

Foundry выбрала Philosophy A. Это означает, что метрики покажут реальную способность агента, но сквозной task success без помощи симулятора будет ниже, чем в Philosophy B.

USR-8 закрывает реальную слепую зону: индустрия годами оценивала агентов, не проверяя сам измерительный инструмент. Вывод «промпт важнее фреймворка» практически ценен — но Microsoft не раскрыла, как именно выглядит правка промпта, улучшившая реализм, и не опубликовала бенчмарк для внешней воспроизводимости.

Дополнительные источники

  1. Bring your own model to Foundry Agent Service
  2. User Simulation in the Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation
  3. emergentmind.com
  4. finout.io

Источники

  1. https://techcommunity.microsoft.com/t5/microsoft-foundry-blog/cross-region-model-connectivity-options-in-microsoft-foundry/ba-p/4528620 external
  2. https://techcommunity.microsoft.com/t5/microsoft-foundry-blog/how-to-score-a-user-simulator-introducing-usr-8/ba-p/4523642 external
→ Опубликовано в Telegram: @agentic_ai_news/550