Claude не может надёжно скачать вирусные геномы — и это не баг модели

Один и тот же запрос к Claude Sonnet 4 про геномы вируса Эбола вернул 106 последовательностей, потом 15, потом 5 — при идентичном промпте. Разные датасеты дали разные даты начала вспышки 2014 года: в одном случае филогенетическое дерево уходило корнями в 1922 год. Anthropic опубликовал исследование, объясняющее, почему ИИ-агенты уверенно пишут код, но буксуют в биологии — и что с этим делать.

Корень проблемы — не слабость моделей, а устройство биологических баз данных. NCBI Virus прячет логику фильтрации за веб-интерфейсом: то, что вирусолог делает несколькими кликами, агент вынужден собирать из нескольких API, согласовывать идентификаторы и фильтровать локально. Авторы блога сравнивают это с ездой на машине по средневековому итальянскому городу: мощность двигателя не помогает, если улицы слишком узкие. Программный код, напротив, изначально строился под автоматизацию — версионирование, документированные API, пакетные менеджеры. Поэтому агенты в кодировании ушли вперёд, а не потому что они умнее.

Для проверки гипотезы команда собрала бенчмарк VirBench: 120 реальных запросов по 40 патогенам с вручную верифицированными ответами. Шесть моделей — Claude Sonnet 4, Claude Opus 4.7, Biomni OSS, Edison Analysis, GPT-5.2-pro, GPT-5.5 — показали среднюю точность от 16,9% до 91,3%, и ни одна не давала стабильно правильных результатов при повторных запусках. Добавление детерминированного инструмента gget virus подняло точность до ~100%. Узкое место — не рассуждение модели, а отсутствие надёжного слоя доступа к данным.

Практические последствия не абстрактны. В мае 2026 года в ДРК объявлена вспышка вируса Бундибугио (семейство Эбола): более 1000 подтверждённых и предполагаемых случаев, более 200 смертей. Чтобы понять, работают ли существующие диагностика и терапия против нового штамма, исследователям нужно сравнить новые геномы с историческими данными из NCBI Virus. Именно этот рабочий процесс сегодня нельзя надёжно автоматизировать — и вопрос не в том, достаточно ли умна модель, а в том, что нужный фильтр живёт только в браузере.

История про два темпа ИИ-прогресса — в коде и в биологии — оказывается историей про инфраструктуру, а не про интеллект. Anthropic предлагает строить биологические базы данных с агентами как полноправными пользователями, а не добавлять «дорожные знаки» поверх средневековых улиц. Честный пробел: кто именно и на какие деньги будет переделывать NCBI и другие публичные базы — в исследовании не сказано. Это решение лежит далеко за пределами того, что может сделать один вендор.

Claude не может надёжно скачать вирусные геномы — и это не баг модели daily

Дополнительные источники

Источники

Оценить материал