영상의학을 위한 공간적 근거를 갖춘 2D 시각-언어 모델(Vision-Language Models)의 확장 가능한 학습
요약
수동 주석 없이 영상의학용 시각-언어 모델(VLM)을 학습시키는 새로운 방법론을 제안합니다. 120만 개의 의료 이미지-텍스트 쌍인 RefRad2D 데이터셋과 이를 통해 학습된 RadGrounder 모델을 통해 보고서 생성 및 공간적 근거 제시 성능을 입증했습니다.
핵심 포인트
- 자동 생성된 RefRad2D 데이터셋을 통한 대규모 의료 VLM 학습
- 보고서 생성, VQA, 공간적 근거 제시를 동시에 수행하는 RadGrounder 개발
- 공간적 근거 학습 시에도 언어 품질 및 VQA 성능 저하 방지
- 외부 의료 VQA 벤치마크에서 기존 특화 모델과 경쟁력 있는 성능 달성
우리는 수동적인 공간 주석(spatial annotations) 없이 영상의학을 위한 시각적 근거를 갖춘 시각-언어 모델(VLMs)을 학습시키는 방법을 연구합니다. 우리는 임상 현장에서 파생된 120만 개의 CT 및 MR 이미지-텍스트 쌍으로 구성된 대규모 이중 언어(독일어/영어) 데이터셋인 RefRad2D를 소개합니다. 이 데이터셋은 LLM 기반 큐레이션 및 자동 세그멘테이션(segmentation)을 통해 자동으로 생성된 작업별 VQA(Visual Question Answering) 및 공간적 근거(spatial grounding) 서브셋을 포함합니다. 이 데이터로 학습된 우리의 모델 RadGrounder는 보고서 생성(report generation), 시각적 질의응답(VQA), 그리고 경계 상자 탐지(bounding-box detection) 또는 세그멘테이션을 통한 공간적 근거 제시를 공동으로 수행합니다. 외부 VQA 벤치마크(Slake, VQA-RAD)에서 RadGrounder는 특화된 의료용 VLM들과 경쟁력 있는 결과를 달성했습니다. 우리의 임상 데이터를 학습 혼합물(training mixture)에 추가하는 것은 다운스트림 데이터셋에 대해서만 미세 조정(fine-tuning)을 수행하는 것보다 개방형 VQA 성능을 향상시키며, 이는 우리 데이터셋의 전이 가능성(transferability)을 보여줍니다. 결정적으로, 공간적 근거(grounding) 감독을 추가해도 언어 품질이 저하되지 않으며, VQA 성능의 손실 없이 공간적으로 검증 가능한 출력을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기