AI News Watcher
Monday, Jun 8, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 08, 2026 · 2 min read · Anthropic ← Back to feed

Claude не может надёжно скачать вирусные геномы — и это не баг модели daily

Детерминированный слой поверх NCBI поднимает точность с 16–91% до почти 100% — значит, проблема не в модели.

Claude не может надёжно скачать вирусные геномы — и это не баг модели
Редакция · Daily briefing

Один и тот же запрос к Claude Sonnet 4 про геномы вируса Эбола вернул 106 последовательностей, потом 15, потом 5 — при идентичном промпте. Разные датасеты дали разные даты начала вспышки 2014 года: в одном случае филогенетическое дерево уходило корнями в 1922 год. Anthropic опубликовал исследование, объясняющее, почему ИИ-агенты уверенно пишут код, но буксуют в биологии — и что с этим делать.

Корень проблемы — не слабость моделей, а устройство биологических баз данных. NCBI Virus прячет логику фильтрации за веб-интерфейсом: то, что вирусолог делает несколькими кликами, агент вынужден собирать из нескольких API, согласовывать идентификаторы и фильтровать локально. Авторы блога сравнивают это с ездой на машине по средневековому итальянскому городу: мощность двигателя не помогает, если улицы слишком узкие. Программный код, напротив, изначально строился под автоматизацию — версионирование, документированные API, пакетные менеджеры. Поэтому агенты в кодировании ушли вперёд, а не потому что они умнее.

Для проверки гипотезы команда собрала бенчмарк VirBench: 120 реальных запросов по 40 патогенам с вручную верифицированными ответами. Шесть моделей — Claude Sonnet 4, Claude Opus 4.7, Biomni OSS, Edison Analysis, GPT-5.2-pro, GPT-5.5 — показали среднюю точность от 16,9% до 91,3%, и ни одна не давала стабильно правильных результатов при повторных запусках. Добавление детерминированного инструмента gget virus подняло точность до ~100%. Узкое место — не рассуждение модели, а отсутствие надёжного слоя доступа к данным.

Практические последствия не абстрактны. В мае 2026 года в ДРК объявлена вспышка вируса Бундибугио (семейство Эбола): более 1000 подтверждённых и предполагаемых случаев, более 200 смертей. Чтобы понять, работают ли существующие диагностика и терапия против нового штамма, исследователям нужно сравнить новые геномы с историческими данными из NCBI Virus. Именно этот рабочий процесс сегодня нельзя надёжно автоматизировать — и вопрос не в том, достаточно ли умна модель, а в том, что нужный фильтр живёт только в браузере.

История про два темпа ИИ-прогресса — в коде и в биологии — оказывается историей про инфраструктуру, а не про интеллект. Anthropic предлагает строить биологические базы данных с агентами как полноправными пользователями, а не добавлять «дорожные знаки» поверх средневековых улиц. Честный пробел: кто именно и на какие деньги будет переделывать NCBI и другие публичные базы — в исследовании не сказано. Это решение лежит далеко за пределами того, что может сделать один вендор.

Дополнительные источники

  1. https://github.com/snap-stanford/Biomni
  2. https://newscience.org/how-software-in-the-life-sciences-actually-works-and-doesnt-work
  3. https://www.anthropic.com/research/making-claude-a-chemist
  4. https://www.anthropic.com/engineering/claude-code-auto-mode
  5. https://docs.github.com/en/copilot/tutorials/copilot-cookbook/debug-errors
  6. https://github.blog/changelog/2026-06-04-fix-with-copilot-for-failing-actions-now-in-pro-pro-and-max/
  7. https://www.anthropic.com/news/claude-4
  8. morphllm.com
  9. businessinsider.com

Источники

  1. https://x.com/bcherny/status/2064034799711588805 external
  2. https://x.com/AnthropicAI/status/2064054837294354677 external
  3. https://www.anthropic.com/research/agents-in-biology news
→ Опубликовано в Telegram: @agentic_ai_news/473