arXiv논문2026. 06. 23. 11:07

MEDLAYXPLAIN: 의료 시각-언어 모델(Medical Vision-Language Models)의 전문가-일반인 간 격차 벤치마킹

요약

의료 시각-언어 모델(Med-VLMs)이 전문가와 일반인 사이의 설명 격차를 얼마나 잘 메우는지 평가하는 새로운 벤치마크 MedLayXPlain을 소개합니다. 122,789개의 샘플을 포함한 대규모 데이터셋과 새로운 평가 모델 MedLayEval을 통해 현재 모델들의 한계를 분석했습니다.

핵심 포인트

의료 영상에 대해 전문가와 일반인 모두에게 적합한 설명을 생성하는 능력 평가
UMLS 온톨로지를 활용한 대규모 멀티모달 벤치마크 MedLayXPlain-122K 구축
HOVER 파이프라인을 통한 고품질 일반인용 의료 캡션 생성 기술 제안
임상적 정밀도와 접근성을 동시에 평가하는 경량 평가기 MedLayEval 도입
의료용 VLM은 일반인 언어 능력이 부족하고, 범용 VLM은 임상 정밀도가 낮음을 확인

의료 시각-언어 모델 (Medical Vision-Language Models, Med-VLMs)은 강력한 전문가 수준의 성능을 달성하지만, 환자가 접근 가능한 설명을 생성하는 능력은 아직 충분히 탐구되지 않았습니다. 21세기 치료법 (21st Century Cures Act)에 따라 진단 영상 결과에 대한 환자의 즉각적인 접근이 의무화됨에 따라, Med-VLMs가 이러한 전문가-일반인 격차 (Expert-Lay Gap)를 메울 수 있는지 평가하는 것은 환자 교육 및 공동 의사결정 (shared decision-making) 측면에서 시급하고 임상적으로 중요한 문제입니다. 이를 위해 우리는 의료 일반인 언어 생성 (Medical Lay Language Generation, MLLG)을 위한 최초의 대규모 멀티모달 벤치마크 및 평가 프레임워크인 MedLayXPlain을 소개합니다. MedLayXPlain-122K는 12개의 공개 소스 데이터셋에서 추출한 8가지 영상 양상 (imaging modalities)에 걸쳐 122,789개의 영역 기반 (region-grounded) 샘플을 제공하며, 각 샘플은 7개의 의미 그룹 (semantic groups), 43개의 의미 유형 (semantic types), 2,411개의 의료 개념 (medical concepts)을 아우르는 3단계 통합 의료 언어 시스템 (Unified Medical Language System, UMLS) 온톨로지 계층 구조에 고정된 의료 영상과 그에 쌍을 이루는 전문가 및 일반인 캡션으로 구성됩니다. 일반인 캡션은 계층적 온톨로지 검증 정제 (Hierarchical Ontology-Verified Refinement, HOVER)를 통해 구축됩니다. HOVER는 환자 중심 어휘 매핑 (patient-centric vocabulary mapping), LLM 기반의 제약 조건부 재작성 (LLM-based constrained rewriting), 그리고 환각 (hallucination)을 방지하면서 의미적 동등성을 강제하는 교차 모델 시각적 검증 (cross-model visual verification)을 결합한 3단계 파이프라인입니다. 나아가 우리는 표준 자연어 생성 (NLG) 지표와 임상적 판단 사이의 낮은 상관관계를 해결하기 위해, 5가지 임상 기반 속성에 걸쳐 전문가-일반인 정렬 (expert-lay alignment) 점수를 매기는 27B 검증기 (verifier)에서 증류된 경량 3B 평가기인 MedLayEval을 도입합니다. MedLayXPlain-122K에서 33개의 VLMs를 벤치마킹한 결과, 체계적인 전문가-일반인 격차가 드러났습니다. 의료용 VLMs는 강력한 전문가 캡셔닝 성능을 보이지만 일반인 수준의 언어 퇴화 (lay-register degradation)를 겪는 반면, 범용 VLMs는 더 접근하기 쉬운 언어를 생성하지만 임상적 정밀도가 부족하여, 현재의 어떤 패러다임도 환자 대상 소통을 적절히 수행하지 못함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MEDLAYXPLAIN: 의료 시각-언어 모델(Medical Vision-Language Models)의 전문가-일반인 간 격차 벤치마킹

요약

핵심 포인트

댓글