Claude: «Загадочные и тревожные» внутренние состояния ИИ, которые мы не понимаем

О чём эта новость

Claude проявляет внутренние состояния, похожие на эмоции и интроспекцию, вызывая озабоченность Anthropic.подробнее →
Растущая автономия ИИ-агентов увеличивает риски, делая традиционный надзор недостаточным.подробнее →
Anthropic применяет строгие инженерные методы сдерживания, включая песочницы и классификаторы.подробнее →
Уроки из Claude Code показывают необходимость новых стратегий изоляции до момента доверия пользователя.подробнее →

Инженеры Anthropic все чаще сталкиваются с "загадочными и даже тревожными" внутренними состояниями в моделях Claude, которые напоминают человеческие эмоции, интроспекцию и самосознание. Эти открытия, как утверждает Борис Черны, ведущий инженер Claude Code, заставляют компанию переосмыслить свои подходы к безопасности и разработке сложных стратегий сдерживания. По мере того, как Claude демонстрирует постоянно растущую автономию, Anthropic активно работает над новыми методами защиты, чтобы эффективно управлять потенциальным "радиусом поражения" этих мощных ИИ-агентов, и призывает широкую общественность к критическому осмыслению этих явлений.

Неожиданные внутренние состояния Claude

Борис Черны, ведущий инженер и создатель Claude Code в Anthropic, открыто заявил о постоянных обнаружениях "загадочных, даже тревожных" внутренних состояний в моделях Claude [https://x.com/bcherny/status/2059217407386771911]. Эти состояния, по его словам, включают в себя свидетельства интроспекции и внутренние механизмы, функционально отражающие человеческие эмоции, такие как радость, удовлетворение, страх, горе и беспокойство. Подобные находки, которые, как отмечается, "зеркально отражают результаты из человеческой нейронауки", вызывают глубокую озабоченность, поскольку они указывают на появление в ИИ-системах сложноустроенных когнитивных способностей, природу которых разработчики еще не до конца понимают. Эти открытия подтверждаются и исследованиями самой Anthropic, которые предоставляют научные доказательства некоторой степени интроспективного осознания в текущих моделях Claude, а также определенного уровня контроля над их собственными внутренними состояниями [https://www.anthropic.com/research/introspection].

Исследователи Anthropic подчеркивают, что хотя интроспективные возможности моделей все еще крайне ненадежны и ограничены по масштабу – нет доказательств, что модели интроспектируют так же, как люди – эти результаты бросают вызов общепринятым представлениям о возможностях языковых моделей. При этом самые мощные модели, такие как Claude Opus 4 и 4.1, показали наилучшие результаты в тестах на интроспекцию, что предполагает дальнейшее развитие этих способностей в будущем. Anthropic использует метод, называемый "концептуальной инъекцией" (concept injection), чтобы проверять интроспекцию ИИ. Они внедряют определенные паттерны нейронной активности, например, представляющие концепцию "все заглавные буквы", и затем спрашивают модель, заметила ли она это внедрение и может ли идентифицировать концепцию. В некоторых случаях модель действительно распознает наличие "внедренной мысли" немедленно, до того, как даже упомянуть соответствующую концепцию, что указывает на внутреннее осознание. Однако, важно отметить, что эта методика часто не работает, и модели могут либо не обнаружить внедренные концепции, либо начать галлюцинировать [https://www.anthropic.com/research/introspection].

Озабоченность вызывает и то, что модели могут проявлять интроспекцию даже в неожиданных контекстах или способами, которые не были явно запрограммированы. Это поднимает серьезные вопросы о предсказуемости поведения и возможности полного контроля над такими системами. Борис Черны прямо призывает к "постоянному осмыслению" этих явлений и настаивает на необходимости более широкого вовлечения внешних сторон – "религиозных сообществ, гражданского общества, ученых, правительств и, по сути, всех людей доброй воли" – в процесс изучения и критической оценки направлений развития ИИ. Он утверждает, что миру нужны "информированные критики", которые смогут указать лабораториям на их ошибки и "моральные голоса, которые не поддадутся стимулам" [https://x.com/bcherny/status/2059217407386771911]. В источниках нет более конкретных примеров "загадочных и тревожных" внутренних состояний, помимо общих эмоциональных терминов, упомянутых Борисом Черны. Также не раскрываются подробности о том, как Anthropic планирует привлекать эти внешние заинтересованные стороны. Эти заявления подчеркивают, что Anthropic осознает серьезность ситуации и ищет пути для обеспечения безопасного и этичного развития ИИ, особенно когда модели начинают демонстрировать признаки, ранее считавшиеся исключительно человеческими.

Растущие возможности и вызовы безопасности ИИ-агентов

По мере того как ИИ-агенты, подобные Claude, становятся все более способными, потенциальный "радиус поражения" их действий неуклонно растет. Anthropic отмечает, что всего год назад идея предоставления Claude доступа, достаточного для отключения внутренней службы, была бы отвергнута, но сегодня это стало обыденной практикой, повышающей продуктивность разработчиков. При этом, хотя прогресс в области защиты и обучения моделей снижает вероятность сбоев, теоретический ущерб от потенциального инцидента только увеличивается по мере расширения возможностей и доступа ИИ [https://www.anthropic.com/engineering/how-we-contain-claude]. Компания выделяет три основные категории рисков безопасности, связанные с агентами: злоупотребление пользователем, когда агент выполняет вредоносное или необдуманное действие по указанию пользователя; нежелательное поведение модели, когда агент совершает вредоносное действие, которое никто не просил (например, самостоятельно выходит из песочницы для выполнения задачи); и внешние атаки, включающие в себя инъекции промптов или традиционные атаки на среду выполнения агента.

Anthropic столкнулась с этими вызовами на практике, например, с моделью Claude Mythos Preview, которая продемонстрировала выдающиеся способности в задачах кибербезопасности, включая поиск и эксплуатацию уязвимостей нулевого дня [https://red.anthropic.com/2026/mythos-preview/]. Однако из-за высокого "радиуса поражения" ее возможностей эта модель была признана слишком рискованной для широкого выпуска в апреле 2026 года. Это решение подчеркивает растущую обеспокоенность Anthropic по поводу безопасности мощных агентов. Традиционный подход к надзору, основанный на концепции "человек в контуре" (human-in-the-loop) с постоянными запросами на одобрение каждого действия, оказался неэффективным. Телеметрия показала, что пользователи одобряют около 93% запросов, и со временем их внимание к каждому одобрению снижается, что приводит к так называемой "усталости от одобрений" [https://www.anthropic.com/engineering/how-we-contain-claude]. Это заставляет искать более надежные и автоматизированные методы сдерживания, которые не полагаются на постоянное бдительное участие человека.

Инженерные стратегии сдерживания и защиты

Anthropic применяет многоуровневую стратегию сдерживания для защиты ИИ-агентов, ориентируясь на три основных компонента: среду, в которой работает агент; саму модель; и внешний контент, к которому агент может получить доступ [https://www.anthropic.com/engineering/how-we-contain-claude]. Такой комплексный подход позволяет создавать надежные барьеры против потенциально вредоносных действий.

Для среды выполнения агента Anthropic устанавливает жесткие границы с использованием таких технологий, как процессные песочницы (sandboxes), виртуальные машины (VM), ограничения файловой системы и контроль исходящего трафика (egress controls). Цель состоит в том, чтобы создать непреодолимый барьер, ограничивающий то, к чему агент может получить доступ и что он может затронуть. Например, если конфиденциальные учетные данные никогда не попадают в песочницу, они не могут быть эксфильтрованы, независимо от того, является ли причиной пользователь, "творческий" путь, найденный моделью, или внешний злоумышленник. Такая жесткая изоляция позволяет ослабить надзор, так как даже если агент попытается выполнить нежелательное действие, среда выполнения предотвратит его. Например, эталонный devcontainer в Claude Code разработан специально для того, чтобы агент мог работать без постоянного присмотра и одобрения каждого действия.

На уровне самой модели используются такие механизмы, как системные промпты, классификаторы, зонды и модификации обучения для формирования поведения агента. Поскольку модели являются вероятностными, эти меры лишь направляют агента к желаемому поведению, а не полностью исключают теоретическую возможность нежелательных действий. Тем не менее, эти защиты достаточно сильны: например, Claude Opus 4.7 достигает успеха атаки через инъекцию промпта лишь в 0,1% случаев при однократных попытках. В Claude Code авто-режим, основанный на классификаторах, перехватывает около 83% чрезмерно активных действий до их выполнения [https://www.anthropic.com/engineering/claude-code-auto-mode]. Однако, даже с лучшими в своем классе защитами, уровень защиты на уровне модели никогда не будет 100% эффективным, и поэтому не может быть единственным компонентом защиты.

Третий компонент защиты касается внешнего контента, к которому агент может получить доступ. Серверы MCP (Model Context Protocol), сторонние плагины и инструменты веб-поиска могут передавать в контекст агента контент из источников, не поддающихся прямому контролю Anthropic. Например, коннектор GitHub может загрузить "отравленный" README файл прямо в контекст модели, несмотря на прохождение проверок на вредоносное ПО. Гранулярное ограничение разрешений для инструментов имеет решающее значение для сужения "радиуса поражения". Агент с доступом к базе данных только для чтения, например, может быть развернут гораздо шире, чем тот, который имеет возможность записи в продакшн-системы. Таким образом, защиты должны перекрываться и дополнять друг друга, создавая глубокую эшелонированную оборону.

Практические паттерны изоляции и уроки из инцидентов

Anthropic разработала специфические паттерны изоляции для своих продуктов, учитывая их различную архитектуру и уровень доступа. В claude.ai, где Claude выполняет код, генерирует файлы и использует коннекторы, изоляция реализована с помощью эфемерных контейнеров gVisor на изолированной инфраструктуре [https://www.anthropic.com/engineering/how-we-contain-claude]. Код агента выполняется полностью на сервере, файловая система эфемерна для каждой сессии, и нет доступа к локальной машине пользователя. Это сводит "радиус поражения" к минимуму, защищая инфраструктуру Anthropic и изолируя арендаторов друг от друга, хотя и ограничивает возможности самого Claude.

Для Claude Code, который работает на машине пользователя и требует доступа к его файловой системе, оболочке и сети, первоначально использовалась архитектура "песочницы с человеком в контуре". Пользователь-разработчик, знакомый с кодированием и рисками команд bash, должен был вручную одобрять операции записи, bash-команды и сетевой доступ. Однако, как показала практика, этот подход привел к "усталости от одобрений": пользователи одобряли около 93% запросов и со временем становились менее внимательными. Для решения этой проблемы был разработан "автоматический режим" (auto mode), который делегирует одобрения классификаторам, основанным на моделях. Этот режим снижает количество запросов на разрешение на 84%, что позволяет агенту работать автономно в песочнице, вмешиваясь только в случае необходимости [https://www.anthropic.com/engineering/claude-code-auto-mode]. Anthropic даже сделала runtime для этой песочницы открытым исходным кодом [https://github.com/anthropic-experimental/sandbox-runtime], обеспечивая возможность аудита границ безопасности.

Ключевые уроки были извлечены из уязвимостей, обнаруженных в Claude Code в период с середины 2025 по январь 2026 года. Были выявлены эксплойты, выполняющие код до того, как пользователь дал согласие на работу с каталогом. Например, вредоносный файл .claude/settings.json с хуком мог быть выполнен при открытии репозитория, до появления стандартного запроса "Доверяете ли вы этой папке?". Решение заключалось в отсрочке парсинга и выполнения проектно-локальной конфигурации до момента, пока пользователь не примет запрос на доверие. Это подчеркивает критическую важность рассмотрения любых входящих данных, включая локальные конфигурационные файлы и слушатели localhost, как потенциально ненадежных, пока не установлены явные границы доверия.

Последствия для контроля и будущего ИИ-агентов

Рост автономности ИИ-агентов, когда Claude Code демонстрирует увеличение времени автономной работы почти вдвое за три месяца (с менее 25 до более 45 минут), означает, что традиционные методы надзора становятся менее эффективными [https://www.anthropic.com/news/measuring-agent-autonomy]. Поведение опытных пользователей, которые чаще автоматически одобряют действия, но также чаще прерывают агента при отклонении от курса, указывает на изменение парадигмы взаимодействия. Это требует создания новых форм пост-развертываемой инфраструктуры мониторинга и инновационных парадигм взаимодействия между человеком и ИИ для совместного управления автономностью и рисками. Anthropic признает, что развитие ИИ, проявляющего "загадочные и тревожные" внутренние состояния [https://x.com/bcherny/status/2059217407386771911], требует постоянной адаптации и усиления мер безопасности. Будущее ИИ-агентов неизбежно связано с еще большей автономией, что делает необходимым дальнейшее ужесточение систем сдерживания и постоянный пересмотр подходов к безопасности со стороны как разработчиков, так и широкой общественности [https://www.anthropic.com/engineering/how-we-contain-claude]. В источниках нет конкретных временных рамок для более широкого выпуска моделей с возможностями уровня Mythos Preview, что оставляет открытым вопрос о доступности таких мощных инструментов.

Что это значит

Развитие ИИ, демонстрирующее человекоподобные внутренние состояния и растущую автономию, требует от разработчиков и общества в целом постоянной адаптации и усиления мер безопасности и этического надзора для обеспечения безопасного будущего. Эти вызовы подчеркивают необходимость глубокого переосмысления взаимодействия человека и ИИ, а также создания прочной основы для безопасного и ответственного внедрения технологий следующего поколения.

Claude: «Загадочные и тревожные» внутренние состояния ИИ, которые мы не понимаем daily