SHOVIR: 방사선 보고서 생성(RRG)에서의 시각적 지름길 학습(Vision Shortcut Learning) 평가를 위한 벤치마크
요약
방사선 보고서 생성(RRG) 모델이 시각적 증거 대신 사전 지식이나 가짜 상관관계에 의존하는 '시각적 지름길' 문제를 평가하기 위한 새로운 벤치마크 SHOVIR을 제안합니다. 8개의 최첨단 VLM을 분석한 결과, 보고서 품질이 높더라도 시각적 근거 제시 능력은 낮을 수 있음을 확인했습니다.
핵심 포인트
- RRG 모델의 시각적 지름길(Vision Shortcut) 현상 규명
- SHOVIR 벤치마크를 통한 직접적 및 맥락적 지름길 평가 방법론 제시
- MIMIC-CXR 및 PadChest-GR 데이터셋 기반의 폐쇄 실험 정의
- 임상적 유창성과 시각적 근거 제시 능력 간의 불일치 발견
방사선 보고서 생성 (Radiology Report Generation, RRG) 분야에서 시각-언어 모델 (Vision-Language Models, VLMs)을 위한 현재의 평가 프로토콜은 어휘적 중첩(lexical overlap)이나 종합적인 임상적 정확성을 측정하는 보고서 수준의 지표에 의존합니다. 그러나 이러한 지표들은 개별 진단 문장이 이미지에서 보이는 실제 병리학적 증거로부터 비롯된 것인지 여부를 테스트하지 못합니다. 이로 인해 모델들은 학습된 사전 지식(priors)이나 가짜 상관관계(spurious correlations)를 악용하여 경쟁력 있는 점수를 얻을 수 있는데, 우리는 이러한 실패 모드를 시각적 지름길 (vision shortcut)이라고 부릅니다. 우리는 RRG에서의 시각적 지름길 동작을 평가하기 위한 벤치마크인 SHOVIR을 소개합니다. SHOVIR은 공간적으로 주석이 달린 두 개의 흉부 X-선 데이터셋인 MIMIC-CXR과 PadChest-GR을 박스별 CheXpert 레이블로 확장하며, 깨끗한 이미지에서의 기본 성능과 국소적이고 영역 특화된 섭동(perturbations)을 대조하는 이미지 수준 및 질병 수준의 폐쇄(occlusion) 실험을 정의합니다. 이러한 조건들 사이에서 예측을 비교함으로써 질병 클래스 수준에서 두 가지 실패 모드를 분리합니다: 시각적 증거가 제거된 후에도 소견이 지속되는 직접적 지름길 (direct shortcuts), 그리고 대상 영역이 온전함에도 불구하고 동반되는 병리학적 소견이 가려졌을 때 탐지 성능이 저하되는 맥락적 지름길 (contextual shortcuts)입니다. 8개의 최첨단 (state-of-the-art) VLMs를 벤치마킹한 결과, 지름길 동작은 아키텍처와 데이터셋에 따라 상당히 다르게 나타남을 발견했습니다. 가장 높은 기본 보고서 품질을 달성한 모델들이 반드시 공간적 근거 제시 (spatial grounding)에서 가장 높은 순위를 차지하는 것은 아니며, 이는 임상적으로 유창한 생성이 시각적 증거에 대한 얕은 의존성과 공존할 수 있음을 드러냅니다. 이러한 발견은 현재 RRG 평가의 사각지대를 노출하며, 영역 인식 평가 프로토콜 (region-aware assessment protocols)의 필요성을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기