GPT-5.6 Sol научилась научному суждению: новый тест GeneBench-Pro

GPT-5.6 Sol научилась научному суждению: новый тест GeneBench-Pro daily

Бенчмарк имитирует реальные задачи биологов, где ИИ должен принимать решения в условиях неопределенности, а не просто следовать инструкциям.

Научные данные редко приходят с готовыми инструкциями, требуя от исследователей умения отличать сигнал от шума и корректировать гипотезы. OpenAI представила GeneBench-Pro, новый бенчмарк, который проверяет именно эти "высшие" навыки ИИ в вычислительной биологии.

OpenAI разработала GeneBench-Pro для оценки так называемого «научного вкуса» ИИ — способности к цепочке суждений, выбору пути анализа, пересмотру допущений и определению готовности результата. Бенчмарк включает 129 синтетически созданных задач по геномике, количественной биологии и трансляционной медицине. В каждой задаче ИИ получает «грязные» данные и должен провести итеративный анализ, как это происходит в реальных исследованиях.

Новейшая модель OpenAI, GPT-5.6 Sol, показала на GeneBench-Pro 28.7% правильных ответов. При использовании в Pro-режиме этот показатель возрастает до 31.5%. Это выше результатов предыдущей модели GPT-5, которая набирала лишь 5%.

Задачи GeneBench-Pro созданы синтетически, чтобы избежать неоднозначности оценок и утечки информации. При этом они имитируют реальные научные вызовы: например, данные могут содержать технические проблемы, требующие вдумчивого анализа, а не просто применения готовых методов. Внешние эксперты, включая аспирантов, докторантов, ученых и профессоров, подтвердили реалистичность и сложность задач, сравнив их с работой, требующей руководства опытного научного руководителя.

GeneBench-Pro поднимает планку для оценки ИИ, переходя от проверки фактов к измерению способности к научному мышлению. Это критически важно для применения ИИ в реальных исследованиях. Однако OpenAI не сообщает, насколько эти результаты GPT-5.6 Sol приближают нас к полностью автономному научному ИИ, способному работать без участия человека.

→ Опубликовано в Telegram: @agentic_ai_news/606

GPT-5.6 Sol научилась научному суждению: новый тест GeneBench-Pro daily

Дополнительные источники

Источники

Оценить материал