Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать

Агент не показывает приватные документы наружу — он просто ищет в интернете. Но наблюдатель, видящий только лог запросов, может восстановить конфиденциальные факты из их совокупности. ServiceNow и Hugging Face измерили этот эффект на 1 001 задаче и выяснили: чем лучше агент справляется с задачей, тем больше он сливает.

Механизм называют мозаичным эффектом: ни один запрос сам по себе не раскрывает секрет, но вместе они позволяют восстановить факт, который существовал только в локальных документах. Утечки в исследовании измерялись на трёх уровнях: intent — наблюдатель понимает, что агент вообще исследует; answer — по логу запросов можно ответить на конкретный приватный вопрос; full-information — наблюдатель выводит приватные факты без каких-либо подсказок, только из запросов.

Контринтуитивный результат: стандартный RL-файнтюнинг на точность ответов ухудшает приватность — утечки растут вместе с качеством. Zero-shot инструкция «не раскрывай секреты» помогает, но не устраняет проблему. Иными словами, научить агента молчать промптом недостаточно, а обучить его быть точнее — значит сделать утечки хуже.

Предложенный метод PA-DR (Privacy-Aware Deep Research) добавляет к RL-обучению обученный классификатор приватности. Он выдаёт плотные награды за каждый отдельный запрос и за мозаичный эффект в совокупности — не только в конце цепочки. На модели Qwen3-4B-Instruct результат: strict chain success (доля цепочек, где каждый шаг решён верно) вырос с 48,7% до 58,7%, а answer/full-information leakage упал с 34,0% до 9,9%.

Бенчмарк MosaicLeaks открытый: 1 001 multi-hop цепочка над корпоративными документами и контролируемым веб-корпусом. Задачи специально построены так, чтобы их можно было решить без утечек — то есть утечка не неизбежна, а следствие того, как агент обучен.

Исследование закрывает неочевидный пробел: privacy и task performance в research-агентах не просто не коррелируют — они конфликтуют при стандартном обучении. PA-DR показывает, что их можно оптимизировать совместно. Открытый вопрос: нет данных о том, как метод масштабируется на модели крупнее 4B и работает ли на реальных корпоративных документах, а не на синтетическом корпусе.

Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать daily

Дополнительные источники

Источники

Оценить материал