공간적으로 근거가 제시된 병변 증거를 통한 임상적 해석이 가능한 안과용 VQA를 향하여
요약
안과용 VQA의 임상적 해석 가능성을 높이기 위해 공간적 병변 근거를 포함하는 새로운 벤치마크 FundusGround를 제안합니다. ETDRS 그리드를 활용해 병변 위치를 표준화하고, 다양한 질문 형식을 통해 모델의 추론 능력을 검증합니다.
핵심 포인트
- 임상적 해석 가능성을 위한 새로운 벤치마크 FundusGround 소개
- ETDRS 그리드를 활용한 병변의 공간적 위치 지정 및 표준화
- 정답 정확도와 병변 수준 추론을 결합한 이중 평가 지표 도입
- 공간적 근거 제시가 모델의 성능과 투명성 향상에 필수적임을 입증
시각적 질의응답 (Visual Question Answering, VQA)은 임상 지원, 특히 망막 안저 사진 (retinal fundus photography)이 진단에 필수적인 안과 분야에서 큰 가능성을 가지고 있습니다. 그러나 안과용 VQA 벤치마크는 주로 정답 정확도에 중점을 두고 있으며, 임상적 해석 가능성 (clinical interpretability)에 필요한 명시적인 시각적 증거는 간과하고 있습니다. 본 연구에서는 공간적으로 근거가 제시된 병변 증거를 갖춘, 임상적으로 해석 가능한 안과용 VQA를 위한 새로운 벤치마크인 FundusGround를 소개합니다. 구체적으로, 우리는 15,595개의 세밀하게 주석이 달린 이미지 수준 병변을 포함하는 10,719개의 안저 이미지를 수집하는 3단계 파이프라인을 제안합니다. 해부학적 일관성과 임상적 타당성을 보장하기 위해, 모든 병변은 당뇨망막병증 조기 검진 연구 (Early Treatment Diabetic Retinopathy Study, ETDRS) 그리드를 사용하여 공간적으로 위치가 지정되며, 이를 통해 9개의 임상적으로 의미 있는 망막 영역으로 표준화된 매핑이 가능해집니다. 이러한 구조화된 병변 증거를 바탕으로, 개방형 (open-ended), 폐쇄형 (closed-ended), 단일 선택형 (single-choice), 다중 선택형 (multiple-choice)의 네 가지 형식을 아우르는 72,706개의 질문이 생성됩니다. 나아가 우리는 정답 정확도와 병변 수준의 추론 (lesion-level reasoning)이라는 이중 지표를 사용하여 여러 일반 및 의료용 대규모 시각-언어 모델 (large vision-language models)을 벤치마킹합니다. 실험 결과, 병변 수준의 시각적 증거를 통합하는 것이 모델의 성능과 투명성을 일관되게 향상시킨다는 것을 입증하였으며, 이는 신뢰할 수 있고 설명 가능한 안과용 VQA를 위해 명시적인 공간적 근거 제시 (spatial grounding)가 필수적임을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기