Научные данные редко приходят с готовыми инструкциями, требуя от исследователей умения отличать сигнал от шума и корректировать гипотезы. OpenAI представила GeneBench-Pro, новый бенчмарк, который проверяет именно эти "высшие" навыки ИИ в вычислительной биологии.
OpenAI разработала GeneBench-Pro для оценки так называемого «научного вкуса» ИИ — способности к цепочке суждений, выбору пути анализа, пересмотру допущений и определению готовности результата. Бенчмарк включает 129 синтетически созданных задач по геномике, количественной биологии и трансляционной медицине. В каждой задаче ИИ получает «грязные» данные и должен провести итеративный анализ, как это происходит в реальных исследованиях.
Новейшая модель OpenAI, GPT-5.6 Sol, показала на GeneBench-Pro 28.7% правильных ответов. При использовании в Pro-режиме этот показатель возрастает до 31.5%. Это выше результатов предыдущей модели GPT-5, которая набирала лишь 5%.
Задачи GeneBench-Pro созданы синтетически, чтобы избежать неоднозначности оценок и утечки информации. При этом они имитируют реальные научные вызовы: например, данные могут содержать технические проблемы, требующие вдумчивого анализа, а не просто применения готовых методов. Внешние эксперты, включая аспирантов, докторантов, ученых и профессоров, подтвердили реалистичность и сложность задач, сравнив их с работой, требующей руководства опытного научного руководителя.
GeneBench-Pro поднимает планку для оценки ИИ, переходя от проверки фактов к измерению способности к научному мышлению. Это критически важно для применения ИИ в реальных исследованиях. Однако OpenAI не сообщает, насколько эти результаты GPT-5.6 Sol приближают нас к полностью автономному научному ИИ, способному работать без участия человека.