OpenMedReason: 의료 시각-언어 모델(Medical Vision-Language Models)을 위한 과학적 추론 감독
요약
의료 시각-언어 모델(LVLM)의 과학적 추론 능력을 향상시키기 위한 대규모 멀티모달 의료 추론 코퍼스인 OpenMedReason을 소개합니다. 논문 기반의 고충실도 추론 과정을 통해 모델의 진단 정확도와 근거 제시 능력을 동시에 개선합니다.
핵심 포인트
- 45만 개의 이미지-질문-답변 인스턴스로 구성된 대규모 의료 추론 코퍼스 공개
- 방사선 스캔, 현미경 이미지 등 다양한 의료 시각 양식 지원
- 인지, 의료 지식, 근거를 평가하는 OpenMedReason-Bench 제공
- 학습 시 베이스 모델 대비 VQA 정확도 평균 20% 향상
대규모 시각-언어 모델(LVLMs)의 고위험 임상 활용에는 단순히 정답을 맞히는 것을 넘어, 시각적 증거와 임상 지식에 기반한 추론이 필요합니다. 우리는 약 45만 개의 이미지-질문-답변 인스턴스로 구성된 대규모 오픈 멀티모달 의료 추론 코퍼스인 OpenMedReason을 소개합니다. 이 코퍼스의 추론 과정(reasoning traces)은 주로 엄선된 생물 의학 및 인간이 작성한 과학 논문에서 추출되었습니다. OpenMedReason은 합성된 사고 사슬(synthetic chains of thought)을 넘어 높은 충실도의 감독(supervision)을 제공하며, 방사선 스캔, 현미경 이미지, 가시광선 사진, 차트 등 다양한 의료 도메인 시각 양식(vision modalities)을 다룹니다. 우리는 이를 보완하기 위해 OpenMedReason-Bench를 함께 제공합니다. 이는 인지(perception), 의료 지식(medical knowledge), 근거(rationale)라는 세 가지 상호 보완적인 역량 축을 따라 LVLM을 세밀하게 평가할 수 있는 홀드아웃 벤치마크(held-out benchmark)로, 최종 정답 정확도를 넘어선 진단적 평가를 가능하게 합니다. OpenMedReason은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 기반 정렬(reinforcement-based alignment) 모두에서 효과를 입증한 풍부한 학습 자원입니다. OpenMedReason으로 학습할 경우 베이스 모델 대비 VQA 정확도가 평균 20% 향상되며, 가장 강력한 유사 규모의 의료 LVLM 성능의 4.2% 이내 수준에 도달합니다. 세밀한 성능 분석 결과, 이러한 이득이 특정 축에만 집중되지 않음을 확인했습니다. OpenMedReason은 인지, 의료 지식, 근거를 공동으로 개선하며, 쌍체 비교(pairwise comparisons)의 86.1%에서 그 추론 과정이 베이스 모델보다 선호되었습니다. 우리는 코드와 데이터셋을 huggingface.co/datasets/neginb/OpenMedReason에 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기