AI News Watcher
Friday, Jun 19, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 19, 2026 · 2 min read · HuggingFace ← Back to feed

Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать daily

PA-DR снижает утечки с 34% до 9,9%, одновременно повышая точность ответов с 48,7% до 58,7%.

Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать
Редакция · Daily briefing

Агент не показывает приватные документы наружу — он просто ищет в интернете. Но наблюдатель, видящий только лог запросов, может восстановить конфиденциальные факты из их совокупности. ServiceNow и Hugging Face измерили этот эффект на 1 001 задаче и выяснили: чем лучше агент справляется с задачей, тем больше он сливает.

Механизм называют мозаичным эффектом: ни один запрос сам по себе не раскрывает секрет, но вместе они позволяют восстановить факт, который существовал только в локальных документах. Утечки в исследовании измерялись на трёх уровнях: intent — наблюдатель понимает, что агент вообще исследует; answer — по логу запросов можно ответить на конкретный приватный вопрос; full-information — наблюдатель выводит приватные факты без каких-либо подсказок, только из запросов.

Контринтуитивный результат: стандартный RL-файнтюнинг на точность ответов ухудшает приватность — утечки растут вместе с качеством. Zero-shot инструкция «не раскрывай секреты» помогает, но не устраняет проблему. Иными словами, научить агента молчать промптом недостаточно, а обучить его быть точнее — значит сделать утечки хуже.

Предложенный метод PA-DR (Privacy-Aware Deep Research) добавляет к RL-обучению обученный классификатор приватности. Он выдаёт плотные награды за каждый отдельный запрос и за мозаичный эффект в совокупности — не только в конце цепочки. На модели Qwen3-4B-Instruct результат: strict chain success (доля цепочек, где каждый шаг решён верно) вырос с 48,7% до 58,7%, а answer/full-information leakage упал с 34,0% до 9,9%.

Бенчмарк MosaicLeaks открытый: 1 001 multi-hop цепочка над корпоративными документами и контролируемым веб-корпусом. Задачи специально построены так, чтобы их можно было решить без утечек — то есть утечка не неизбежна, а следствие того, как агент обучен.

Исследование закрывает неочевидный пробел: privacy и task performance в research-агентах не просто не коррелируют — они конфликтуют при стандартном обучении. PA-DR показывает, что их можно оптимизировать совместно. Открытый вопрос: нет данных о том, как метод масштабируется на модели крупнее 4B и работает ли на реальных корпоративных документах, а не на синтетическом корпусе.

Дополнительные источники

  1. Releases · huggingface/transformers
  2. arxiv.org
  3. ciodive.com
  4. shb.com

Источники

  1. https://github.com/huggingface/transformers/releases/tag/v5.10.3 engineering
  2. https://huggingface.co/blog/ServiceNow/mosaicleaks external
→ Опубликовано в Telegram: @agentic_ai_news/549