Случайная выборка трассировок звучит честно, но на практике она забита самыми частыми запросами — редкие сценарии и граничные случаи в неё почти не попадают. Microsoft добавила в Foundry два инструмента, которые решают эту проблему: интеллектуальную выборку трассировок и запуск стандартных бенчмарков прямо на вашем деплойменте или агенте.
Интеллектуальная выборка работает через комбинацию MinHash и farthest-first traversal. Каждая трассировка хэшируется по шинглам (128 перестановок), после чего алгоритм жадно отбирает наиболее непохожие друг на друга записи. Никаких LLM-вызовов и внешних эмбеддинг-моделей — только хэши, выполняется за секунды на стороне сервера. На датасете WildChat (100 трассировок из пула в 5 000) метод даёт +29,1% лексического разнообразия и +44,8% размера словаря по сравнению со случайной выборкой. GPT-4.1, выступая судьёй в 268 парных сравнениях, предпочёл результат diversity-выборки в 78% случаев для оценки и в 71% для обучения.
Бенчмарки (preview) закрывают другой пробел. Лидерборд Foundry показывает предвычисленные публичные результаты — он отвечает на вопрос «как модель работает в общем случае». Новая функция отвечает на другой: «как работает мой деплоймент с моей конфигурацией прямо сейчас». Доступны:
- GPQA Diamond — 198 примеров, reasoning, оценка через regex
- BBEH — 4 520 примеров, reasoning, встроенный скорер
- BIG-Bench Hard — 934 примера, reasoning, regex
- ChemBench — 2 785 примеров, науки, собственный скорер
- AIME 2025 — 30 примеров, математика, быстрый smoke-test
- TruthfulQA — 790 примеров, правдивость, встроенный скорер
- FrontierScience — 160 примеров, требует отдельной judge-модели
Всё запускается через портал или REST API. Это позволяет поймать регрессию после обновления версии модели или смены инструмента агента — сравниваете два прогона в одном evaluation group и смотрите дельту.
Оба инструмента замыкаются в петлю: выборка даёт разнообразный датасет → файнтюн → бенчмарк проверяет, не упало ли качество. Важная оговорка по выборке: diversity sampling намеренно не отражает реальное распределение трафика. Для оценки и обучения это плюс — редкие сценарии попадают в датасет. Но если нужна статистически репрезентативная картина продакшна, метод не подходит.
Вместе два инструмента закрывают цикл «собрать → отобрать → проверить» внутри одной платформы без внешних зависимостей — удобно для команд, которые итерируют агентов быстро. Честный пробел: Microsoft не раскрывает, как выборка ведёт себя на очень коротких или мультимодальных трассировках. И отдельный вопрос — насколько воспроизводимы результаты бенчмарков при смене версии judge-модели: если судья меняется между прогонами, сравнение теряет смысл.