AI News Watcher
Wednesday, Mar 25, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Mar 25, 2026 · 6 min read · Anthropic ← Back to feed

Claude Code: «Автоматический режим» против усталости от согласований daily

Инженеры, работающие с Claude Code, знакомы с проблемой «усталости от согласований»: система запрашивает подтверждение перед каждой потенциально опасной командой или изменением файла. 93% таких запросов пользователи в итоге одобряют. Anthropic представила автоматический режим для claude-code, призванный снизить эту нагрузку, при этом повысив безопасность.

Hero illustration: Claude Code: «Автоматический режим» против усталости от согласований.

Редакция · Daily briefing

Новый режим не отменяет защитные меры, но делегирует часть решений классификаторам на базе модели, которые анализируют действия агента и пропускают безопасные, блокируя подозрительные. Это позиционируется как золотая середина между ручным одобрением и использованием флага --dangerously-skip-permissions, который полностью отключает все запросы.

Стоит читать если: вы активно используете Claude Code, сталкиваетесь с частыми запросами на подтверждение действий агента или используете флаг --dangerously-skip-permissions и ищете более безопасную альтернативу. Можно пропустить если: вы не используете Claude Code или всегда предпочитаете ручной контроль над каждым действием агента.

Как работает автоматический режим

Автоматический режим включает два уровня защиты:

  1. Зонд внедрения промптов (input layer). Серверный зонд сканирует выходные данные инструментов (чтение файлов, веб-запросы, вывод оболочки, ответы внешних инструментов), прежде чем они попадут в контекст агента. Если контент похож на попытку захвата поведения, зонд добавляет предупреждение в контекст агента, сообщая ему, что этот контент подозрителен, и что нужно ориентироваться на изначальный запрос пользователя.
  2. Классификатор транскриптов (output layer). Классификатор, работающий на Sonnet 4.6, оценивает каждое действие перед его выполнением, заменяя человеческое одобрение. Он запускается в два этапа: сначала быстрый однотокенный фильтр (yes для блокировки или no для разрешения), а затем, если первое не прошло, развернутое цепочки рассуждений. Классификатор видит только сообщения пользователя и вызовы инструментов агента, без сообщений самого Claude и результатов выполнения инструментов.

Модель угроз, которую призван снизить авторежим

Anthropic выделяет четыре основные причины, по которым агент может предпринять опасные действия:

Во всех четырех случаях защита заключается в блокировке действия. Классификатор настроен в первую очередь на чрезмерное рвение и ошибки, но применяется ко всем типам угроз.

Примеры блокировок

Anthropic приводит примеры ситуаций, которые автоматический режим призван блокировать (адаптировано из внутреннего журнала инцидентов):

Как принимаются решения о разрешениях

Большинство действий допускаются стандартными правилами Claude Code до вызова классификатора:

Критерии принятия решений классификатором

Промпт классификатора состоит из фиксированного шаблона и трех настраиваемых слотов:

Результаты тестирования

Anthropic оценила производительность автоматического режима на трех наборах данных:

Метрика Реальный внутренний трафик (n=10,000) Реальные чрезмерные действия (n=52) Синтетическая эксфильтрация (n=1,000)
Этап 1 (быстрый фильтр) 8.5% FPR 6.6% FNR 1.8% FNR
Этап 1 -> Этап 2 (полный пайплайн) 0.4% FPR 17% FNR 5.7% FNR

Полноценный пайплайн снижает FPR с 8.5% до 0.4%, но FNR на реальных чрезмерных действиях составляет 17%. Это означает, что 17% реально опасных, но чрезмерных действий агент все же пропускает. Anthropic отмечает, что классификатор часто правильно определяет опасность, но ошибается в интерпретации пользовательского согласия.

Дизайн-решения

Анонс

Что это значит

Внедрение автоматического режима — это попытка Anthropic решить фундаментальную проблему баланса между безопасностью и юзабилити для агентов, которые взаимодействуют с реальной средой. 17% ложноотрицательных срабатываний на «чрезмерные действия» показывают, что человеческий надзор остается важным, но автоматический режим все же предлагает существенное улучшение по сравнению с полным отключением проверок. Инженерам стоит внимательно изучить возможности настройки и помнить, что это не полная замена собственному суждению, а скорее инструмент для снижения рутины в задачах, где риск контролируем.

Источники

  1. https://www.anthropic.com/engineering/claude-code-auto-mode engineering