AI News Watcher
Wednesday, Jul 1, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jul 01, 2026 · 2 min read · Anthropic ← Back to feed

Claude Fable 5 вернулся после блокировки — и Anthropic создаёт стандарт оценки взломов ИИ daily

Инцидент с обходом защиты выявил пробел в индустрии — и Anthropic вместе с конкурентами предлагает его закрыть.

Claude Fable 5 вернулся после блокировки — и Anthropic создаёт стандарт оценки взломов ИИ
Редакция · Daily briefing

Когда правительство США блокирует доступ к ИИ-модели через три дня после её запуска, это не просто сбой. Это сигнал: обход защиты Claude Fable 5 показал, что индустрии не хватает единого подхода к оценке уязвимостей, которые могут возникнуть при работе с такими системами.

Модели Claude Fable 5 и Mythos 5 были выпущены 9 июня. Уже 12 июня правительство США ввело экспортный контроль, потребовав ограничить доступ иностранным гражданам. Поскольку Anthropic не могла оперативно проверить гражданство, доступ к обеим моделям был полностью приостановлен для всех пользователей по всему миру. С 1 июля Claude Fable 5 снова доступен на всех платформах Anthropic. Доступ к Mythos 5 пока восстановлен только для ряда организаций в США.

Причиной блокировки стал отчёт исследователей Amazon, которые нашли способ обойти защиту Fable 5. Модель смогла выявить программные уязвимости и даже продемонстрировать, как их можно эксплуатировать. Anthropic проверила это: оказалось, что другие, менее модели (такие как Claude Opus 4.8, GPT-5.5 и Kimi K2.7) тоже могли выполнять подобные задачи. Обнаруженная техника не раскрыла уникальных возможностей Mythos 5, предназначенных для более чувствительных задач кибербезопасности.

Для решения проблемы Anthropic обучила улучшенный классификатор безопасности для Fable 5. Он блокирует описанную технику обхода защиты в более чем 99% случаев. Запросы, которые классификатор считает потенциально опасными, теперь перенаправляются на Claude Opus 4.8. Однако у такого подхода есть и недостаток: новый классификатор чаще блокирует безобидные запросы, что может вызывать ложные срабатывания. Центр стандартов и инноваций в области ИИ (CAISI) Министерства торговли США подтвердил надёжность новых мер безопасности.

Инцидент подчеркнул отсутствие в ИИ-индустрии единого стандарта для описания и оценки серьёзности джейлбрейков (jailbreaks — техник обхода защиты ИИ-моделей). Это создаёт неопределённость для разработчиков и государственных органов. В ответ Anthropic в партнёрстве с Amazon, Microsoft, Google и другими участниками программы Glasswing начала разрабатывать единый фреймворк для оценки таких уязвимостей. Предлагаемый подход включает четыре критерия:

Инцидент с Claude Fable 5 показал, что даже самые сильные защиты могут быть обойдены, а новые меры Anthropic имеют свою цену в виде ложных срабатываний. Но главное — он ускорил создание необходимого индустрии стандарта для оценки ИИ-уязвимостей, без которого безопасное масштабирование по-настоящему моделей остаётся под вопросом.

Дополнительные источники

  1. PROMOTING ADVANCED ARTIFICIAL INTELLIGENCE INNOVATION AND SECURITY
  2. Center for AI Standards and Innovation (CAISI)
  3. Common Vulnerability Scoring System SIG
  4. Expanding Project Glasswing
  5. Claude Fable 5 and Claude Mythos 5
  6. Strengthening our safeguards through collaboration with US CAISI and UK AISI
  7. forbes.com

Источники

  1. https://x.com/AnthropicAI/status/2072163884430229756 external
  2. https://www.anthropic.com/news/redeploying-fable-5 news
  3. https://x.com/noahzweben/status/2072164356301693030 external
  4. http://claude.ai/admin-settings/claude-tag unknown
  5. https://x.com/alexalbert__/status/2072404717490360727 external
  6. https://x.com/noahzweben/status/2072408854021677468 external
→ Опубликовано в Telegram: @agentic_ai_news/620