얼마나 확신하시나요? 의료 VQA에서의 언어화된 불확실성 보정(Verbalized Uncertainty Calibration) 개선
요약
의료 VQA 모델이 과도하게 확신하는 문제를 해결하기 위해 복합 손실 함수를 활용한 언어화된 불확실성 보정 프레임워크를 제안합니다. MedGemma 및 Qwen2 VL 모델 실험을 통해 예측 정확도를 유지하면서도 보정 오차를 60% 이상 개선했습니다.
핵심 포인트
- 의료 MLLM의 과도한 확신 문제를 해결하는 훈련 기반 프레임워크 제안
- Brier 스타일, 앵커 정규화, 대조적 정렬 등 복합 손실 함수 활용
- MedGemma 4B 및 Qwen2 VL 7B 모델에서 보정 오차 60% 이상 감소
- 시각적 모달리티와 언어적 사전 지식 간의 의존성 조사
의료 시각적 질의응답 (Medical Visual Question Answering (VQA))에 적용되는 멀티모달 거대 언어 모델 (Multimodal Large Language Models (MLLMs))은 실제 정답 여부와 관계없이 과도하게 확신에 찬 출력을 생성하는 경향이 있으며, 주로 텍스트 전용 LLM을 위해 개발된 기존의 언어화된 신뢰도 보정 (verbalized confidence calibration) 방법들은 의료 영상 이해의 멀티모달 특성을 고려하지 못합니다. 본 연구는 Brier 스타일의 보정 항 (calibration term), 신뢰도가 극단적인 값으로 붕괴되는 것을 방지하는 앵커 정규화 항 (anchor regularizer), 대조적 이미지-텍스트 정렬 항 (contrastive image text alignment term), 그리고 KL 기반 모델 안정화 항 (KL based model stabilization term)을 결합한 복합 손실 함수 (composite loss function)를 사용하여 MLLM을 미세 조정 (finetuning)함으로써 보정 성능을 향상시키는 훈련 기반 프레임워크를 제안합니다. 정렬 신호는 이미지의 존재 여부와 텍스트의 무결성을 교차시키는 $2 imes 2$ 요인 섭동 설계 (factorial perturbation design)로부터 도출되며, 이를 통해 모델이 시각적 모달리티 (visual modality) 입력에 의존하는지 아니면 언어적 사전 지식 (language priors)에 의존하는지를 조사합니다. 마지막으로, 미세 조정 과정에서 모델의 답변 능력을 보호하기 위해 Top K KL 발산 (KL divergence) 정규화 항이 사용됩니다. 세 가지 의료 VQA 벤치마크와 두 가지 아키텍처 (MedGemma 4B IT 및 Qwen2 VL 7B Instruct)에 대해 실험한 결과, 우리의 방법은 예측 정확도를 유지하면서도 보정 오차 (calibration error)를 60% 이상 줄이고 변별력 (discrimination)을 26% 이상 향상시켰습니다. 벤치마크 평균적으로 이 기술은 프롬프팅 기반 (prompting based), 샘플링 기반 (sampling based), 그리고 훈련 기반 (training based) 접근 방식보다 뛰어난 성능을 보였으며, 어블레이션 실험 (ablation experiments)을 통해 손실 함수의 각 구성 요소가 보정 개선에 실제로 필요함을 확인했습니다. 실험에 사용된 모든 코드는 공개적으로 사용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기