Модель смотрит на рентген грудной клетки, но уверенно описывает нормальную печень на КТ — и при этом попадает в правильный ответ. Исследователи Cohere Labs Community выяснили, что RLVR-дообучение (обучение с подкреплением на проверяемых наградах) на медицинских бенчмарках систематически повышает точность и одновременно отучает модель реально смотреть на изображение.
Корень проблемы — в структуре самих бенчмарков. Медицинские VQA-датасеты (наборы «вопрос — изображение — ответ») содержат текстовые паттерны: формулировки вопросов и распределение ответов достаточно предсказуемы, чтобы модель угадывала правильный вариант без анализа картинки. RLVR оптимизирует финальный ответ, но не проверяет, откуда он взялся. Результат показателен: на PathVQA — бенчмарке патоморфологических микроснимков, где зрение должно быть обязательным — текстово-обученная модель набрала 65% точности с чужим изображением и лишь 56% с правильным. Отрицательный VRS (−0,09) означает, что верная картинка буквально мешала модели отвечать.
Чтобы измерить этот разрыв, авторы построили контрфактический фреймворк: каждый вопрос прогоняли с тремя вариантами изображения — реальным, серым квадратом и случайным снимком из того же датасета. Тестировали три варианта модели Qwen2.5-VL-7B на четырёх бенчмарках: PathVQA, PMC-VQA, SLAKE и VQA-RAD. Вместе с фреймворком предложили три новые метрики:
- VRS (Visual Reliance Score) — разница в точности между реальным и перемешанным изображением; падение говорит о реальной зависимости от картинки.
- IS (Image Sensitivity) — как часто ответ модели вообще меняется при смене изображения, независимо от правильности.
- HVRR (Hallucinated Visual Reasoning Rate) — доля случаев, когда модель описывает конкретные визуальные признаки, но итоговый ответ не зависит от того, что на картинке.
Числа неутешительные. Image-text RLVR-модель показала лучшую общую точность — 58,8% — но её image sensitivity упала до 39,8% против 48,2% у необученного базового варианта: 60% ответов оставались неизменными вне зависимости от изображения. Визуальные описания в 61% случаев никак не влияли на итоговый ответ. На VQA-RAD оба RLVR-варианта набрали одинаковые 63% — но через разные механизмы: текстовая модель сохраняла 81% точности даже с серым квадратом вместо снимка.
Клинический риск авторы иллюстрируют «Парадоксом модального скептика». Когда модели показывают рентген грудной клетки вместо ожидаемого КТ живота и спрашивают про печень, image-text модель корректно распознаёт несоответствие и отказывается отвечать. Текстовая модель тоже замечает в рассуждении, что рентген не подходит для оценки печени, — и всё равно уверенно описывает её как нормальную. Рассуждение и ответ полностью разорваны. В клинике врач, читающий объяснение модели как окно в её логику, получает имитацию визуального анализа там, где его нет.
Авторы требуют включать VRS, IS и HVRR в стандартную отчётность рядом с точностью, аудировать бенчмарки на наличие текстовых шорткатов и переработать обучающие цели так, чтобы явно штрафовать image-инвариантные ответы.
Точность на бенчмарке и реальная визуальная грамотность модели — разные вещи, и RLVR делает этот разрыв невидимым. Честный пробел: авторы тестировали только Qwen2.5-VL-7B и не проверяли, помогает ли явный grounding-штраф при обучении закрыть эту дыру. Это следующий шаг, который пока не сделан.