시각적 의미 엔트로피 (Visual Semantic Entropy): 시각 언어 모델 (VLM)은 시각적 모호성을 인식하는가?
요약
VLM이 시각적 모호성을 인식하지 못하고 과도하게 확신하는 문제를 해결하기 위해 시각적 의미 엔트로피(VSE)를 제안합니다. 기존 방식이 텍스트 변화에 민감했던 것과 달리, VSE는 이미지 섭동을 통해 시각적 불확실성을 효과적으로 측정합니다.
핵심 포인트
- VLM의 시각적 모호성에 대한 과도한 확신 문제 지적
- 기존 SE 방식이 시각적 임베딩의 특성으로 인해 불확실성을 과소평가함
- 텍스트 대신 이미지만을 섭동시키는 VSE 방법론 제안
- 5개 VLM 및 5개 VQA 벤치마크에서 SOTA 성능 입증
시각 언어 모델 (Vision-language models)은 시각적으로 모호한 입력에 대해 확신에 찬 답변을 생성할 수 있으며, 이는 편향된 예측으로 이어집니다. 의미 엔트로피 (Semantic Entropy, SE)와 같은 일반적인 엔트로피 기반 방법들은 출력의 다양성 (output diversity)에 의존합니다. 그러나 우리의 분석에 따르면, 과도하게 확신에 찬 시각적 임베딩 (visual embeddings)은 확률적 디코딩 (stochastic decoding) 하에서 출력의 다양성을 억제하며, 이로 인해 SE가 이러한 경우의 불확실성 (uncertainty)을 과소평가하게 만듭니다. 최근의 방법들은 대신 텍스트 패러프레이징 (textual paraphrasing)이나 텍스트-이미지 결합 섭동 (joint text-image perturbations)을 포함한 입력 섭동 (input perturbations)을 통해 출력의 다양성을 조사하며 개선된 성능을 보여줍니다. 우리는 이러한 접근 방식들을 연구하였으며, 그 결과 발생하는 변동성이 시각적 증거보다는 텍스트의 변화에 의해 지배되는 경우가 많아, 불확실성 추정치가 시각적 모호성보다는 프롬프트 민감도 (prompt sensitivity)를 반영하게 된다는 점을 밝혀냈습니다. 따라서 우리는 텍스트 쿼리는 고정된 상태로 유지하면서 근처의 시각적 변이 (visual variations)를 조사하기 위해 이미지만을 섭동시키는 시각적 의미 엔트로피 (Visual Semantic Entropy, VSE)를 제안합니다. VSE는 생성된 답변들을 의미적 프로토타입 (semantic prototypes)으로 클러스터링하고, 이들 사이의 질량 가중 분산 (mass-weighted dispersion)을 계산하여 불확실성을 측정합니다. 5개의 현대적인 시각 언어 모델 (VLM)과 5개의 다양한 VQA 벤치마크에 걸친 광범위한 평가를 통해, VSE가 시각적 모호성을 효과적으로 포착하며 VLM 불확실성 추정 분야에서 새로운 SOTA (state-of-the-art)를 확립함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기