CoMet: 멀티모달 불확실성 추정을 위한 문맥 및 다중성 분해

불확실성 추정 (Uncertainty estimation)은 AI 모델에서 오랫동안 지속된 과제입니다. 이는 "자신이 무엇을 모르는지 아는 것"에 해당하며, 메타인지 (metacognition)는 인간에게조차 악명 높게 어려운 일입니다 (예: 더닝-크루거 효과 (Dunning-Kruger effect)). 비록 더 단순한 분류 시스템에서도 여전히 해결되지 않은 상태이지만, 멀티모달 거대 언어 모델 (MLLMs)에서 이를 다루는 것은 점점 더 중요해지고 있습니다. MLLM 내에서 불확실성은 다양한 출처뿐만 아니라 그들 사이의 관계로부터 발생할 수 있으며, 나아가 개방형 설정 (open-ended setting)에서의 무제한적인 답변으로부터 발생할 수도 있습니다. 이러한 문제를 해결하기 위해, 우리는 불확실성을 문맥 특화 항 (context-specific term)과 다중성 특화 항 (multiplicity-specific term)으로 분해하는 MLLM 불확실성 추정 방법인 CoMet을 제안합니다. 전자는 주어진 문맥 (예: 작업 또는 프롬프트)에 의해 유도된 모호성 (ambiguity)을 포착하며, 후자는 문맥에 의해 결정된 얼마나 많은 그럴듯한 답변들이 주어진 입력과 여전히 호환되는지를 포착합니다. 우리는 이러한 양들을 추정하기 위해 경량화된 사후 (post-hoc) 불확실성 모듈을 학습시키며, 이를 통해 자기회귀적 (autoregressive) 답변 생성이나 반복적인 샘플링 없이도 효율적인 불확실성 추정을 가능하게 합니다. 다양한 개방형 멀티모달 벤치마크, 환각 탐지 (hallucination detection), 그리고 다지선다형 시각 질의응답 (multiple-choice visual question answering) 벤치마크에 대한 실험 결과, CoMet은 실무에서 효율성을 유지하면서 기존 베이스라인 (baselines)보다 불확실성 추정 성능을 일관되게 향상시킴을 보여줍니다. 코드는 https://github.com/princetonvisualai/comet_uncertainty 에서 확인할 수 있습니다.

Insights

CoMet: 멀티모달 불확실성 추정을 위한 문맥 및 다중성 분해

요약

핵심 포인트

댓글

테슬라가 핸들도 페달도 없는 사이버캡을 공도에 올렸다. 근데 진짜 뉴스는 "FSD가 됐다"가 아니다

메모리값이 세 분기 만에 4배가 됐는데, 다들 원인을 반만 맞히고 있다

SK하이닉스가 나스닥 상장 서류를 다시 냈는데, 정작 제일 중요한 칸을 비워둔 채였다

비자와 마스터카드가 자기 사업을 위협할 스테이블코인에 제 발로 들어갔다. 이유는 하나다

메모리값이 세 분기 만에 4배가 됐는데, 다들 원인을 반만 맞히고 있다

SK하이닉스가 나스닥 상장 서류를 다시 냈는데, 정작 제일 중요한 칸을 비워둔 채였다

비자와 마스터카드가 자기 사업을 위협할 스테이블코인에 제 발로 들어갔다. 이유는 하나다