Claude Fable 5 вернулся после блокировки — и Anthropic создаёт стандарт оценки взломов ИИ

Когда правительство США блокирует доступ к ИИ-модели через три дня после её запуска, это не просто сбой. Это сигнал: обход защиты Claude Fable 5 показал, что индустрии не хватает единого подхода к оценке уязвимостей, которые могут возникнуть при работе с такими системами.

Модели Claude Fable 5 и Mythos 5 были выпущены 9 июня. Уже 12 июня правительство США ввело экспортный контроль, потребовав ограничить доступ иностранным гражданам. Поскольку Anthropic не могла оперативно проверить гражданство, доступ к обеим моделям был полностью приостановлен для всех пользователей по всему миру. С 1 июля Claude Fable 5 снова доступен на всех платформах Anthropic. Доступ к Mythos 5 пока восстановлен только для ряда организаций в США.

Причиной блокировки стал отчёт исследователей Amazon, которые нашли способ обойти защиту Fable 5. Модель смогла выявить программные уязвимости и даже продемонстрировать, как их можно эксплуатировать. Anthropic проверила это: оказалось, что другие, менее модели (такие как Claude Opus 4.8, GPT-5.5 и Kimi K2.7) тоже могли выполнять подобные задачи. Обнаруженная техника не раскрыла уникальных возможностей Mythos 5, предназначенных для более чувствительных задач кибербезопасности.

Для решения проблемы Anthropic обучила улучшенный классификатор безопасности для Fable 5. Он блокирует описанную технику обхода защиты в более чем 99% случаев. Запросы, которые классификатор считает потенциально опасными, теперь перенаправляются на Claude Opus 4.8. Однако у такого подхода есть и недостаток: новый классификатор чаще блокирует безобидные запросы, что может вызывать ложные срабатывания. Центр стандартов и инноваций в области ИИ (CAISI) Министерства торговли США подтвердил надёжность новых мер безопасности.

Инцидент подчеркнул отсутствие в ИИ-индустрии единого стандарта для описания и оценки серьёзности джейлбрейков (jailbreaks — техник обхода защиты ИИ-моделей). Это создаёт неопределённость для разработчиков и государственных органов. В ответ Anthropic в партнёрстве с Amazon, Microsoft, Google и другими участниками программы Glasswing начала разрабатывать единый фреймворк для оценки таких уязвимостей. Предлагаемый подход включает четыре критерия:

Прирост возможностей — насколько джейлбрейк пользователя по сравнению с существующими инструментами.
Широта прироста возможностей — количество различных задач, для которых работает одна и та же техника обхода защиты.
Легкость вооружения — сколько усилий требуется, чтобы превратить джейлбрейк в реальную атаку.
Обнаруживаемость — насколько легко получить информацию о технике обхода защиты.

Инцидент с Claude Fable 5 показал, что даже самые сильные защиты могут быть обойдены, а новые меры Anthropic имеют свою цену в виде ложных срабатываний. Но главное — он ускорил создание необходимого индустрии стандарта для оценки ИИ-уязвимостей, без которого безопасное масштабирование по-настоящему моделей остаётся под вопросом.

Claude Fable 5 вернулся после блокировки — и Anthropic создаёт стандарт оценки взломов ИИ daily

Дополнительные источники

Источники

Оценить материал