Половина пациентов с редкими генетическими болезнями так и не получают диагноза — даже после полного секвенирования генома и консультаций у нескольких специалистов. Исследователи из Boston Children's Hospital и Harvard взяли 376 таких «висячих» случаев, прогнали их через o3 Deep Research и получили 18 новых диагнозов. Результаты опубликованы 18 июня в NEJM AI — первое рецензируемое подтверждение, что модель общего назначения даёт реальный диагностический прирост там, где специалисты годами заходили в тупик.
Как работал процесс. На вход модель получала деидентифицированный пакет по каждому пациенту: стандартизированные HPO-термины (онтология фенотипов человека), отфильтрованную таблицу геномных вариантов с аннотациями из ClinVar, данные обоих родителей и метаданные вроде возраста и пола. Задача — не выдать ранжированный список генов, а построить связную гипотезу с обоснованием, которую человек может оспорить. Каждый кандидат затем проходил проверку минимум двух экспертов по стандарту ACMG/AMP, и диагноз засчитывался только после подтверждения в CLIA-сертифицированной лаборатории и передачи результата семье.
Итог по четырём когортам:
- Нейроразвитие — 10 диагнозов из 100 случаев (10,0%)
- Нейромышечные болезни — 4 из 61 (6,6%)
- Ранний психоз — 2 из 15 (13,3%)
- Внезапная смерть у детей — 2 из 200 (1,0%)
- Итого — 18 из 376 (4,8%)
Все эти случаи уже прошли через коммерческие и институциональные пайплайны — то есть 4,8% это прирост поверх того, что дали предыдущие разборы.
Технически интересные моменты. В одном случае с ранним психозом модель вывела структурную аномалию хромосомы 22 — делецию 22q11.2, связанную с синдромом ДиДжорджа, — которой не было во входных данных. Она связала паттерн низкокачественных коллов на хромосоме с сердечными, иммунными и психиатрическими признаками пациента. Делеция подтвердилась при дополнительном секвенировании. В двух других случаях модель предложила дигенные объяснения — два гена вместо одного, хотя промпт просил одно, — и оба раза это лучше объясняло клиническую картину. Самооценка уверенности модели коррелировала с правильными ответами: средний балл 85,6 для верных вызовов против 42,1 для неверных. Команда использовала эти оценки как сигнал для приоритизации, а не как клиническое решение.
Ограничения и что дальше. Исследование ретроспективное: рецензенты не были ослеплены относительно оценок уверенности модели, время и стоимость анализа не измерялись. 7 из 18 диагнозов оказались «переоткрытиями» — варианты уже числились патогенными в публичных базах, но не попали в локальные записи конкретных команд. Это отдельная проблема: не алгоритмическая, а операционная. OpenAI Foundation выдаёт грант Manton Center на следующий этап — создание платформо-независимого AI-копилота для редких болезней, который можно будет использовать без привязки к конкретной модели.
До этой работы применение LLM в геномике оставалось преимущественно на уровне демонстраций без рецензируемых клинических данных. Теперь такие данные есть. Но главное, чего в публикации нет: сколько ложноположительных гипотез сгенерировала модель и сколько часов специалисты потратили на их проверку. Без этих цифр оценить реальную операционную ценность инструмента — и то, масштабируется ли он за пределы исследовательской группы, — пока невозможно.