AI News Watcher
Monday, Jun 15, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 15, 2026 · 2 min read · Microsoft AI ← Back to feed

Microsoft Foundry сам отбирает нужные трассировки и гоняет бенчмарки на вашем агенте daily

Умная выборка даёт +44% словарного охвата против случайной — и это важнее, чем кажется при файнтюнинге.

Microsoft Foundry сам отбирает нужные трассировки и гоняет бенчмарки на вашем агенте
Редакция · Daily briefing

Случайная выборка трассировок звучит честно, но на практике она забита самыми частыми запросами — редкие сценарии и граничные случаи в неё почти не попадают. Microsoft добавила в Foundry два инструмента, которые решают эту проблему: интеллектуальную выборку трассировок и запуск стандартных бенчмарков прямо на вашем деплойменте или агенте.

Интеллектуальная выборка работает через комбинацию MinHash и farthest-first traversal. Каждая трассировка хэшируется по шинглам (128 перестановок), после чего алгоритм жадно отбирает наиболее непохожие друг на друга записи. Никаких LLM-вызовов и внешних эмбеддинг-моделей — только хэши, выполняется за секунды на стороне сервера. На датасете WildChat (100 трассировок из пула в 5 000) метод даёт +29,1% лексического разнообразия и +44,8% размера словаря по сравнению со случайной выборкой. GPT-4.1, выступая судьёй в 268 парных сравнениях, предпочёл результат diversity-выборки в 78% случаев для оценки и в 71% для обучения.

Бенчмарки (preview) закрывают другой пробел. Лидерборд Foundry показывает предвычисленные публичные результаты — он отвечает на вопрос «как модель работает в общем случае». Новая функция отвечает на другой: «как работает мой деплоймент с моей конфигурацией прямо сейчас». Доступны:

Всё запускается через портал или REST API. Это позволяет поймать регрессию после обновления версии модели или смены инструмента агента — сравниваете два прогона в одном evaluation group и смотрите дельту.

Оба инструмента замыкаются в петлю: выборка даёт разнообразный датасет → файнтюн → бенчмарк проверяет, не упало ли качество. Важная оговорка по выборке: diversity sampling намеренно не отражает реальное распределение трафика. Для оценки и обучения это плюс — редкие сценарии попадают в датасет. Но если нужна статистически репрезентативная картина продакшна, метод не подходит.

Вместе два инструмента закрывают цикл «собрать → отобрать → проверить» внутри одной платформы без внешних зависимостей — удобно для команд, которые итерируют агентов быстро. Честный пробел: Microsoft не раскрывает, как выборка ведёт себя на очень коротких или мультимодальных трассировках. И отдельный вопрос — насколько воспроизводимы результаты бенчмарков при смене версии judge-модели: если судья меняется между прогонами, сравнение теряет смысл.

Дополнительные источники

  1. What is Microsoft Foundry? - Microsoft Learn
  2. Get to know Vertex AI Model Monitoring
  3. Evaluate documentation
  4. Tracing and data handling
  5. arpitbhayani.me

Источники

  1. https://techcommunity.microsoft.com/t5/microsoft-foundry-blog/intelligent-sampling-in-microsoft-foundry-the-science-behind/ba-p/4523722 external
  2. https://techcommunity.microsoft.com/t5/microsoft-foundry-blog/benchmarks-in-microsoft-foundry-preview-standardized-model-and/ba-p/4523711 external
→ Опубликовано в Telegram: @agentic_ai_news/514