UniReason-Med: 의료 VQA의 2D-to-3D 전이를 위한 공유된 접지된 추론 인터페이스 (Shared Grounded
요약
UniReason-Med는 2D 의료 이미지의 접지된 추론 능력을 3D 의료 VQA로 전이하기 위한 단일 체크포인트 프레임워크입니다. 공유된 박스 구문과 영역 토큰 주입을 통해 텍토 텍스트 추론과 시각적 증거를 정렬하며, 새로운 데이터셋인 UniMed-CoT를 통해 성능을 입증했습니다.
핵심 포인트
- 2D와 3D 의료 이미지를 공통된 추론 인터페이스로 정렬
- 220K 규모의 UniMed-CoT 지시어 튜닝 데이터셋 구축
- 강화학습을 통해 별도의 보상 없이도 접지된 추론 생성 가능
- 2D+3D 공동 학습이 3D 전용 학습보다 우수한 성능 발휘
우리는 풍부한 2D 의료 이미지로부터 얻은 접지된 추론 (grounded reasoning) 감독이 두 입력 유형이 공통된 추론 인터페이스를 통해 정렬될 때 3D 의료 VQA (Visual Question Answering)를 개선할 수 있는지 연구합니다. 우리는 추론 시 2D 이미지 또는 슬라이스 직렬화된 (slice-serialized) 3D 볼륨을 처리하며, 공유된 박스 구문 (box syntax), 영역 토큰 주입 (region-token injection), 그리고 공통된 접지된 추론 정책 (common grounded reasoning policy)을 통해 텍스트 추론과 국소화된 시각적 증거 (localized visual evidence)가 교차되어 나타나도록 생성하는 단일 체크포인트 프레임워크인 UniReason-Med를 소개합니다. 이 인터페이스를 학습시키기 위해, 우리는 170K의 2D 샘플과 50K의 3D 샘플을 포함하여 텍스트 추론과 접지된 시각적 증거가 교차된 220K 규모의 지시어 튜닝 (instruction-tuning) 데이터셋인 UniMed-CoT를 구축합니다. 지도 미세 조정 (supervised fine-tuning)에 이은 결과 수준 강화학습 (outcome-level reinforcement learning)을 통해, UniReason-Med는 RL 과정 중 IoU/Dice 기반의 국소화 보상 (localization rewards) 없이도 접지된 추론 흔적 (grounded reasoning traces)을 생성하는 법을 학습합니다. 데이터 혼합 및 구성 요소 절제 연구 (ablations) 결과, 2D+3D 공동 접지 감독은 3D 전용 학습에 비해 3D 추론을 실질적으로 개선하는 반면, 접지 (grounding) 및 영역 토큰 주입은 2D와 3D 작업 모두에 일관된 이점을 제공함을 보여줍니다. 이러한 결과는 공유된 접지된 추론 인터페이스가 2D 이미지로부터의 추론 구조를 슬라이스 직렬화된 볼륨 의료 이해 (volumetric medical understanding)로 전이할 수 있음을 시사합니다. 코드와 데이터는 https://github.com/IQuestLab/unireason-med 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기