arXiv논문2026. 06. 15. 07:45

OpenMedReason: 의료 시각-언어 모델(Medical Vision-Language Models)을 위한 과학적 추론 감독

요약

의료 시각-언어 모델(LVLM)의 과학적 추론 능력을 향상시키기 위한 대규모 멀티모달 의료 추론 코퍼스인 OpenMedReason을 소개합니다. 논문 기반의 고충실도 추론 과정을 통해 모델의 진단 정확도와 근거 제시 능력을 동시에 개선합니다.

핵심 포인트

45만 개의 이미지-질문-답변 인스턴스로 구성된 대규모 의료 추론 코퍼스 공개
방사선 스캔, 현미경 이미지 등 다양한 의료 시각 양식 지원
인지, 의료 지식, 근거를 평가하는 OpenMedReason-Bench 제공
학습 시 베이스 모델 대비 VQA 정확도 평균 20% 향상

대규모 시각-언어 모델(LVLMs)의 고위험 임상 활용에는 단순히 정답을 맞히는 것을 넘어, 시각적 증거와 임상 지식에 기반한 추론이 필요합니다. 우리는 약 45만 개의 이미지-질문-답변 인스턴스로 구성된 대규모 오픈 멀티모달 의료 추론 코퍼스인 OpenMedReason을 소개합니다. 이 코퍼스의 추론 과정(reasoning traces)은 주로 엄선된 생물 의학 및 인간이 작성한 과학 논문에서 추출되었습니다. OpenMedReason은 합성된 사고 사슬(synthetic chains of thought)을 넘어 높은 충실도의 감독(supervision)을 제공하며, 방사선 스캔, 현미경 이미지, 가시광선 사진, 차트 등 다양한 의료 도메인 시각 양식(vision modalities)을 다룹니다. 우리는 이를 보완하기 위해 OpenMedReason-Bench를 함께 제공합니다. 이는 인지(perception), 의료 지식(medical knowledge), 근거(rationale)라는 세 가지 상호 보완적인 역량 축을 따라 LVLM을 세밀하게 평가할 수 있는 홀드아웃 벤치마크(held-out benchmark)로, 최종 정답 정확도를 넘어선 진단적 평가를 가능하게 합니다. OpenMedReason은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 기반 정렬(reinforcement-based alignment) 모두에서 효과를 입증한 풍부한 학습 자원입니다. OpenMedReason으로 학습할 경우 베이스 모델 대비 VQA 정확도가 평균 20% 향상되며, 가장 강력한 유사 규모의 의료 LVLM 성능의 4.2% 이내 수준에 도달합니다. 세밀한 성능 분석 결과, 이러한 이득이 특정 축에만 집중되지 않음을 확인했습니다. OpenMedReason은 인지, 의료 지식, 근거를 공동으로 개선하며, 쌍체 비교(pairwise comparisons)의 86.1%에서 그 추론 과정이 베이스 모델보다 선호되었습니다. 우리는 코드와 데이터셋을 huggingface.co/datasets/neginb/OpenMedReason에 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenMedReason: 의료 시각-언어 모델(Medical Vision-Language Models)을 위한 과학적 추론 감독

요약

핵심 포인트

댓글