AI News Watcher
Tuesday, Jun 30, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 30, 2026 · 1 min read · OpenAI ← Back to feed

GPT-5.6 Sol научилась научному суждению: новый тест GeneBench-Pro daily

Бенчмарк имитирует реальные задачи биологов, где ИИ должен принимать решения в условиях неопределенности, а не просто следовать инструкциям.

GPT-5.6 Sol научилась научному суждению: новый тест GeneBench-Pro
Редакция · Daily briefing

Научные данные редко приходят с готовыми инструкциями, требуя от исследователей умения отличать сигнал от шума и корректировать гипотезы. OpenAI представила GeneBench-Pro, новый бенчмарк, который проверяет именно эти "высшие" навыки ИИ в вычислительной биологии.

OpenAI разработала GeneBench-Pro для оценки так называемого «научного вкуса» ИИ — способности к цепочке суждений, выбору пути анализа, пересмотру допущений и определению готовности результата. Бенчмарк включает 129 синтетически созданных задач по геномике, количественной биологии и трансляционной медицине. В каждой задаче ИИ получает «грязные» данные и должен провести итеративный анализ, как это происходит в реальных исследованиях.

Новейшая модель OpenAI, GPT-5.6 Sol, показала на GeneBench-Pro 28.7% правильных ответов. При использовании в Pro-режиме этот показатель возрастает до 31.5%. Это выше результатов предыдущей модели GPT-5, которая набирала лишь 5%.

Задачи GeneBench-Pro созданы синтетически, чтобы избежать неоднозначности оценок и утечки информации. При этом они имитируют реальные научные вызовы: например, данные могут содержать технические проблемы, требующие вдумчивого анализа, а не просто применения готовых методов. Внешние эксперты, включая аспирантов, докторантов, ученых и профессоров, подтвердили реалистичность и сложность задач, сравнив их с работой, требующей руководства опытного научного руководителя.

GeneBench-Pro поднимает планку для оценки ИИ, переходя от проверки фактов к измерению способности к научному мышлению. Это критически важно для применения ИИ в реальных исследованиях. Однако OpenAI не сообщает, насколько эти результаты GPT-5.6 Sol приближают нас к полностью автономному научному ИИ, способному работать без участия человека.

Дополнительные источники

  1. GeneBench-Pro: Evaluating Multistage Statistical Reasoning in Genomics, Quantitative Biology, and Translational Biomedicine
  2. Navigating bottlenecks and trade-offs in genomic data analysis
  3. ajh-oai / genebench-pro-public-package
  4. Artificial Analysis Independent analysis of AI
  5. _Ux86_64_setcontext should not read from stack after adjusting %rsp · libunwind/libunwind@a9b9293
  6. GeneBench-Pro Case Study: SV-driven TXR1 Tumor-board Utility Estimation
  7. infoq.com
  8. aiskill.market

Источники

  1. https://openai.com/index/how-chatgpt-adoption-has-expanded news
  2. https://openai.com/index/introducing-genebench-pro news
  3. https://openai.com/index/genebench-pro/case-studies news
  4. https://openai.com/index/core-dump-epidemiology-data-infrastructure-bug news
→ Опубликовано в Telegram: @agentic_ai_news/606