arXiv논문2026. 06. 23. 11:44

EnTrust: 신뢰할 수 있는 멀티모달 의료 영상 분석을 위한 모달 간 충돌 모델링

요약

EnTrust는 멀티모달 의료 영상 분석 시 발생하는 모달리티 간 충돌을 모델링하여 예측 불확실성을 정밀하게 추정하는 프레임워크입니다. 공유 정보, 특이적 단서, 충돌 신호로 특징을 분해하여 임상의가 불확실성의 원인을 이해할 수 있도록 돕습니다.

핵심 포인트

모달리티 간 충돌을 불확실성의 주요 원인으로 정의
EnFuse 모듈을 통한 특징의 세 가지 구성 요소 분해
확산 기반 모델(SegDiff)과 TrustMap를 통한 보정된 불확실성 제공
기존 딥 앙상블 대비 적은 메모리로 우수한 성능 달성
뇌, 심장, 종양학 등 다양한 벤치마크에서 SOTA 달성

멀티모달 (Multimodal) 의료 영상은 상호 보완적인 해부학적 정보와 기능적 정보를 융합하지만, 병리학적으로 이질적인 영역에서는 모달리티 (modalities) 간에 의견이 불일치하는 경우가 빈번합니다. 현재의 세그멘테이션 (segmentation) 모델들은 이를 부적절한 두 가지 방식 중 하나로 처리합니다: 불일치를 평균화하여 없애버리는 결정론적 융합 (deterministic fusion), 또는 융합 과정과 분리되어 사후적으로 수행되는 불확실성 추정 (post-hoc uncertainty estimation)입니다. 두 방식 모두 "왜 이 예측이 신뢰할 수 없는가?"라는 임상적으로 매우 중요한 질문을 가립니다. 우리는 모달 간 충돌 (inter-modal conflict)을 예측 불확실성의 주요 원인으로 취급하는 프레임워크인 EnTrust를 제시합니다. 우리의 EnFuse 모듈은 멀티모달 특징을 세 가지 분리된 구성 요소로 분해합니다: 공유된 해부학적 합의 (F_c), 모달리티 특이적 단서 (F_{u,m}), 그리고 공간적으로 국소화된 충돌 신호 (F_{cf})이며, 교차 공분산 (cross-covariance) 목적 함수를 통해 독립성을 강제합니다. 이러한 구조적 분해는 SegDiff를 조건화합니다. SegDiff는 확산 기반 (diffusion-based) 생성 세그멘테이션 모델로, 샘플링된 가설들이 모달리티 간 불일치가 발생하는 영역에서 구체적으로 갈라집니다. 그다음 TrustMap는 앙상블 엔트로피 (ensemble entropy), 충돌 가이드 섭동 탐침 (conflict-guided perturbation probing), 그리고 학습된 보정 헤드 (learned calibration head)를 사용하여 이러한 가설의 발산을 보정된 픽셀 단위 불확실성으로 변환하며, 이를 통해 임상의가 예측이 어디서 불확실한지뿐만 아니라 왜 그러한지를 이해할 수 있게 합니다. 뇌, 심장, 병변 및 종양학 도메인을 아우르는 4개의 벤치마크 전반에서, EnTrust는 가장 강력한 베이스라인과 비교하여 보정 오차 (calibration error)를 40% 줄이면서 최첨단 (state-of-the-art) 세그멘테이션 정확도를 달성했습니다. 특히, EnTrust는 단일 모델을 사용하여 메모리 사용량을 약 절반 수준으로 유지하면서도 5배 규모의 딥 앙상블 (deep ensembles)보다 뛰어난 성능을 보입니다. 코드와 체크포인트는 https://github.com/GenMI-Lab/EnTrust.git 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EnTrust: 신뢰할 수 있는 멀티모달 의료 영상 분석을 위한 모달 간 충돌 모델링

요약

핵심 포인트

댓글