Если тест-стенд врёт — оценки агента бессмысленны. Microsoft прогнала четыре конфигурации симулятора через 1 200 диалогов в трёх доменах и получила неожиданный вывод: один и тот же промпт в стороннем фреймворке даёт почти те же результаты, что и в Foundry.
USR-8 — восемь ортогональных метрик для оценки самого симулятора, а не агента. Они разделяют поведение и стиль и вскрывают сбои, которые единая агрегированная оценка скрывает. Симулятор, заканчивающий каждый ответ фразой «Спасибо за помощь!», тихо завышает скор агента. Симулятор-«тренер», который подсказывает агенту («сначала проверьте тарифные правила»), прячет его реальные ошибки. Ни тот ни другой изъян не виден из итоговой цифры агента — USR-8 их разделяет.
Главный эмпирический вывод: промпт важнее платформы. Foundry-симулятор набрал потолочные значения по всем метрикам кроме реализма. Небольшая правка промпта существенно улучшила реализм. Тот же промпт, загруженный в сторонний фреймворк, дал схожие результаты по тем же метрикам. Вывод Microsoft: менять оркестрацию ради качества симуляции бессмысленно — качество живёт в промпте.
Отдельный практический момент — два несовместимых сценария использования симулятора:
- «Реалистичный оппонент» (Philosophy A) — симулятор остаётся в роли и не подсказывает. Провалы агента остаются видимыми. Подходит для сравнения промптов агента и поиска регрессий.
- «Полезный тестировщик» (Philosophy B) — симулятор может помочь пользователю, как помог бы реальный кооперативный собеседник. Измеряет сквозной task success, но маскирует слабости агента: результат кредитует помощь симулятора, а не самостоятельность агента.
Foundry выбрала Philosophy A. Это означает, что метрики покажут реальную способность агента, но сквозной task success без помощи симулятора будет ниже, чем в Philosophy B.
USR-8 закрывает реальную слепую зону: индустрия годами оценивала агентов, не проверяя сам измерительный инструмент. Вывод «промпт важнее фреймворка» практически ценен — но Microsoft не раскрыла, как именно выглядит правка промпта, улучшившая реализм, и не опубликовала бенчмарк для внешней воспроизводимости.