TAVR-VLM: 환각 저항적 보고서 생성을 위한 위험 조건부 인과적 그라운딩 (Risk-Conditioned Causal Grounding)
요약
TAVR-VLM은 의료 영상 기반의 TAVR 계획 시 발생하는 진단적 환각 문제를 해결하기 위한 새로운 MLLM 프레임워크입니다. R-CGA 메커니즘을 통해 위험 요소와 해부학적 근거를 인과적으로 연결하여 생성의 정확도와 해석 가능성을 높였습니다.
핵심 포인트
- 위험-영역-단어로 이어지는 인과적 그라운딩 경로 구현
- R-CGA를 통한 시각적 특징의 전역 위험 마스크 정제
- M3TAVR 데이터셋 기준 SOTA 성능 달성
- 환각률을 8.1%로 대폭 감소시켜 의료적 신뢰성 확보
경피적 대동맥 판막 치환술 (Transcatheter Aortic Valve Replacement, TAVR) 계획에는 세심한 멀티모달 추론 (multimodal reasoning)이 필요합니다. 그러나 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)을 이러한 고위험 영역에 적용하는 것은 생성된 텍스트가 해부학적 근거 (anatomical grounding)를 결여하는 진단적 환각 (diagnostic hallucinations) 문제로 인해 심각하게 저해됩니다. 이를 해결하기 위해 TAVR-VLM을 소개합니다. 이는 모델 내부의 "위험(Risk) $\rightarrow$ 영역(Region) $\rightarrow$ 단어(Word)" 구조적 그라운딩 경로를 구현하는 위험 조건부 인과적 그라운딩 어텐션 (Risk-Conditioned Causal Grounding Attention, R-CGA)을 특징으로 하는 새로운 프레임워크입니다. R-CGA는 멀티모달 입력을 인과적 위험 병목 (causal risk bottleneck)으로 압축하여, 밀집된 시각적 특징 (dense visual features)을 전역 위험 마스크 (global risk mask)로 정제합니다. 자기회귀 생성 (autoregressive generation) 동안, 서포트 투영된 인과적 일관성 목적 함수 (support-projected causal consistency objective)는 위험이 정의된 서포트 마스크 (support mask) 내에서 토큰 수준의 그라운딩을 제한합니다. 1,482명의 환자 코호트를 포함하는 포괄적인 $\text{M}^3\text{TAVR}$ 데이터셋에서 평가한 결과, TAVR-VLM은 새로운 SOTA (state-of-the-art)를 구축했습니다. 이 모델은 0.896의 AUROC를 달성하고, CIDEr를 0.936으로 높였으며, 환각률을 8.1%로 대폭 감소시켜 근거 기반 수술용 AI를 위한 해석 가능성 (interpretability)을 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기