AI News Watcher
Friday, Jun 19, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 19, 2026 · 2 min read · Cohere ← Back to feed

Медицинский ИИ угадывает правильный ответ, не глядя на снимок daily

Новый фреймворк показал: 60% ответов не меняются, даже если подсунуть другую картинку.

Медицинский ИИ угадывает правильный ответ, не глядя на снимок
Редакция · Daily briefing

Модель смотрит на рентген грудной клетки, но уверенно описывает нормальную печень на КТ — и при этом попадает в правильный ответ. Исследователи Cohere Labs Community выяснили, что RLVR-дообучение (обучение с подкреплением на проверяемых наградах) на медицинских бенчмарках систематически повышает точность и одновременно отучает модель реально смотреть на изображение.

Корень проблемы — в структуре самих бенчмарков. Медицинские VQA-датасеты (наборы «вопрос — изображение — ответ») содержат текстовые паттерны: формулировки вопросов и распределение ответов достаточно предсказуемы, чтобы модель угадывала правильный вариант без анализа картинки. RLVR оптимизирует финальный ответ, но не проверяет, откуда он взялся. Результат показателен: на PathVQA — бенчмарке патоморфологических микроснимков, где зрение должно быть обязательным — текстово-обученная модель набрала 65% точности с чужим изображением и лишь 56% с правильным. Отрицательный VRS (−0,09) означает, что верная картинка буквально мешала модели отвечать.

Чтобы измерить этот разрыв, авторы построили контрфактический фреймворк: каждый вопрос прогоняли с тремя вариантами изображения — реальным, серым квадратом и случайным снимком из того же датасета. Тестировали три варианта модели Qwen2.5-VL-7B на четырёх бенчмарках: PathVQA, PMC-VQA, SLAKE и VQA-RAD. Вместе с фреймворком предложили три новые метрики:

Числа неутешительные. Image-text RLVR-модель показала лучшую общую точность — 58,8% — но её image sensitivity упала до 39,8% против 48,2% у необученного базового варианта: 60% ответов оставались неизменными вне зависимости от изображения. Визуальные описания в 61% случаев никак не влияли на итоговый ответ. На VQA-RAD оба RLVR-варианта набрали одинаковые 63% — но через разные механизмы: текстовая модель сохраняла 81% точности даже с серым квадратом вместо снимка.

Клинический риск авторы иллюстрируют «Парадоксом модального скептика». Когда модели показывают рентген грудной клетки вместо ожидаемого КТ живота и спрашивают про печень, image-text модель корректно распознаёт несоответствие и отказывается отвечать. Текстовая модель тоже замечает в рассуждении, что рентген не подходит для оценки печени, — и всё равно уверенно описывает её как нормальную. Рассуждение и ответ полностью разорваны. В клинике врач, читающий объяснение модели как окно в её логику, получает имитацию визуального анализа там, где его нет.

Авторы требуют включать VRS, IS и HVRR в стандартную отчётность рядом с точностью, аудировать бенчмарки на наличие текстовых шорткатов и переработать обучающие цели так, чтобы явно штрафовать image-инвариантные ответы.

Точность на бенчмарке и реальная визуальная грамотность модели — разные вещи, и RLVR делает этот разрыв невидимым. Честный пробел: авторы тестировали только Qwen2.5-VL-7B и не проверяли, помогает ли явный grounding-штраф при обучении закрыть эту дыру. Это следующий шаг, который пока не сделан.

Дополнительные источники

  1. Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning
  2. qualitysmartsolutions.com
  3. bhmpc.com
  4. frontiersin.org

Источники

  1. https://x.com/Cohere_Labs/status/2067910577985388711 external
  2. https://x.com/Cohere_Labs/status/2067990231513538595 external
  3. https://labscommunity.cohere.com/blog/2026/visual-grounding-medical-vlms/ blog
  4. https://x.com/1vnzh/status/2068111580194070592 external
→ Опубликовано в Telegram: @agentic_ai_news/551