arXiv논문2026. 06. 05. 13:45

영상의학에서의 비교 추론을 위한 시각-언어 프레임워크

요약

영상의학의 비교 진단 실무를 지원하기 위해 엔티티 인식 교차 이미지 추론 프레임워크를 제안합니다. 대규모 데이터셋 MedReCo-DB를 구축하고, 검색을 위한 MedReCo와 생성적 해석을 위한 MedReCo-VLM 모델을 개발하여 성능을 입증했습니다.

핵심 포인트

의료 영상 비교 추론을 위한 MedReCo-DB 데이터셋 구축
엔티티 인식 시각 인코더 MedReCo를 통한 검색 성능 향상
MedReCo-VLM을 통한 시계열 변화의 생성적 해석 구현
흉부 방사선 및 CT에서 종단적 추적 관찰 정확도 대폭 개선

의료 영상 인공지능 (Medical imaging artificial intelligence)은 개별 이미지 해석에서는 강력한 성능을 달성했지만, 진단과 추적 관찰이 이전 검사 및 유사한 참조 사례와의 비교에 의존하는 영상의학 (Radiology) 실무와는 여전히 정렬이 잘 되지 않은 상태로 남아 있습니다. 본 연구에서는 영상의학적 비교를 엔티티 인식 교차 이미지 추론 (Entity-aware cross-image reasoning) 문제로 공식화하고, 참조 사례 검색 (Reference-case retrieval)과 시계열 비교 해석 (Temporal comparative interpretation)을 모두 지원하는 프레임워크를 소개합니다. 우리는 8개 기관, 4개국, 7개 영상 양상 (Imaging modalities)에 걸쳐 160,000명 이상의 환자로부터 얻은 690,000장 이상의 이미지로 구성된 일상적인 이미지-보고서 쌍에서 유도된 대규모 비교 영상 리소스인 MedReCo-DB를 구축했습니다. 보고서는 엔티티 조건부 검색 (Entity-conditioned retrieval) 및 비교 시각 질의응답 (Comparative visual question answering)을 위한 감독 (Supervision)을 제공하기 위해 해부학적 구조, 이상 소견 및 병리적 상태로 분해됩니다. 이 리소스를 사용하여 우리는 임상적으로 유사한 사례의 제어 가능한 검색을 위한 엔티티 인식 시각 인코더 (Entity-aware visual encoder)인 MedReCo와, 간격 변화 (Interval change)의 생성적 해석을 위한 시각-언어 확장 모델인 MedReCo-VLM을 개발했습니다. 내부, 외부 및 센터 간 평가 전반에 걸쳐 MedReCo는 12개의 내부 검색 설정 모두에서 가장 높은 Recall@1을 달성했으며, 외부 검색 성능을 평균 6.0 퍼센트 포인트 향상시켰습니다. 임상적으로 혼동하기 쉬운 감별 그룹 (Differential groups)에서도 가장 강력한 베이스라인 모델들을 지속적으로 능가했습니다. MedReCo-VLM은 모든 비교 생성 평가에서 최고의 성능을 달성했으며, 흉부 방사선 사진 (Chest radiographs)에서는 14.5~~46.5 퍼센트 포인트, CT에서는 13.0~~27.9 퍼센트 포인트의 종단적 추적 관찰 (Longitudinal follow-up) 정확도를 향상시켰습니다. 이러한 결과는 엔티티 인식 비교 추론이 일상적인 임상 데이터로부터 대규모로 학습될 수 있으며, 의료 영상 인공지능을 위해 보다 임상적으로 정렬된 기반을 제공할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

영상의학에서의 비교 추론을 위한 시각-언어 프레임워크

요약

핵심 포인트

댓글