CoMet: 멀티모달 불확실성 추정을 위한 문맥 및 다중성 분해
요약
CoMet은 멀티모달 거대 언어 모델(MLLM)의 불확실성을 문맥 특화 항과 다중성 특화 항으로 분해하여 추정하는 새로운 방법론을 제안합니다. 경량화된 사후(post-hoc) 모듈을 통해 추가적인 샘플링 없이도 효율적으로 불확실성을 측정하며, 기존 베이스라인 대비 우수한 성능을 입증했습니다.
핵심 포인트
- 불확실성을 문맥 특화 항과 다중성 특화 항으로 분해하여 분석
- 자기회귀적 생성이나 반복 샘플링 없는 경량화된 사후 모듈 활용
- 환각 탐지 및 다지선다형 시각 질의응답 벤치마크에서 성능 향상 확인
- MLLM의 메타인지 능력을 강화하여 모델의 신뢰성 제고
불확실성 추정 (Uncertainty estimation)은 AI 모델에서 오랫동안 지속된 과제입니다. 이는 "자신이 무엇을 모르는지 아는 것"에 해당하며, 메타인지 (metacognition)는 인간에게조차 악명 높게 어려운 일입니다 (예: 더닝-크루거 효과 (Dunning-Kruger effect)). 비록 더 단순한 분류 시스템에서도 여전히 해결되지 않은 상태이지만, 멀티모달 거대 언어 모델 (MLLMs)에서 이를 다루는 것은 점점 더 중요해지고 있습니다. MLLM 내에서 불확실성은 다양한 출처뿐만 아니라 그들 사이의 관계로부터 발생할 수 있으며, 나아가 개방형 설정 (open-ended setting)에서의 무제한적인 답변으로부터 발생할 수도 있습니다. 이러한 문제를 해결하기 위해, 우리는 불확실성을 문맥 특화 항 (context-specific term)과 다중성 특화 항 (multiplicity-specific term)으로 분해하는 MLLM 불확실성 추정 방법인 CoMet을 제안합니다. 전자는 주어진 문맥 (예: 작업 또는 프롬프트)에 의해 유도된 모호성 (ambiguity)을 포착하며, 후자는 문맥에 의해 결정된 얼마나 많은 그럴듯한 답변들이 주어진 입력과 여전히 호환되는지를 포착합니다. 우리는 이러한 양들을 추정하기 위해 경량화된 사후 (post-hoc) 불확실성 모듈을 학습시키며, 이를 통해 자기회귀적 (autoregressive) 답변 생성이나 반복적인 샘플링 없이도 효율적인 불확실성 추정을 가능하게 합니다. 다양한 개방형 멀티모달 벤치마크, 환각 탐지 (hallucination detection), 그리고 다지선다형 시각 질의응답 (multiple-choice visual question answering) 벤치마크에 대한 실험 결과, CoMet은 실무에서 효율성을 유지하면서 기존 베이스라인 (baselines)보다 불확실성 추정 성능을 일관되게 향상시킴을 보여줍니다. 코드는 https://github.com/princetonvisualai/comet_uncertainty 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기