시각적 의미 엔트로피 (Visual Semantic Entropy): 시각 언어 모델 (VLM)은 시각적 모호성을 인식하는가?

시각 언어 모델 (Vision-language models)은 시각적으로 모호한 입력에 대해 확신에 찬 답변을 생성할 수 있으며, 이는 편향된 예측으로 이어집니다. 의미 엔트로피 (Semantic Entropy, SE)와 같은 일반적인 엔트로피 기반 방법들은 출력의 다양성 (output diversity)에 의존합니다. 그러나 우리의 분석에 따르면, 과도하게 확신에 찬 시각적 임베딩 (visual embeddings)은 확률적 디코딩 (stochastic decoding) 하에서 출력의 다양성을 억제하며, 이로 인해 SE가 이러한 경우의 불확실성 (uncertainty)을 과소평가하게 만듭니다. 최근의 방법들은 대신 텍스트 패러프레이징 (textual paraphrasing)이나 텍스트-이미지 결합 섭동 (joint text-image perturbations)을 포함한 입력 섭동 (input perturbations)을 통해 출력의 다양성을 조사하며 개선된 성능을 보여줍니다. 우리는 이러한 접근 방식들을 연구하였으며, 그 결과 발생하는 변동성이 시각적 증거보다는 텍스트의 변화에 의해 지배되는 경우가 많아, 불확실성 추정치가 시각적 모호성보다는 프롬프트 민감도 (prompt sensitivity)를 반영하게 된다는 점을 밝혀냈습니다. 따라서 우리는 텍스트 쿼리는 고정된 상태로 유지하면서 근처의 시각적 변이 (visual variations)를 조사하기 위해 이미지만을 섭동시키는 시각적 의미 엔트로피 (Visual Semantic Entropy, VSE)를 제안합니다. VSE는 생성된 답변들을 의미적 프로토타입 (semantic prototypes)으로 클러스터링하고, 이들 사이의 질량 가중 분산 (mass-weighted dispersion)을 계산하여 불확실성을 측정합니다. 5개의 현대적인 시각 언어 모델 (VLM)과 5개의 다양한 VQA 벤치마크에 걸친 광범위한 평가를 통해, VSE가 시각적 모호성을 효과적으로 포착하며 VLM 불확실성 추정 분야에서 새로운 SOTA (state-of-the-art)를 확립함을 입증합니다.

Insights

시각적 의미 엔트로피 (Visual Semantic Entropy): 시각 언어 모델 (VLM)은 시각적 모호성을 인식하는가?

요약

핵심 포인트

댓글

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

UPI의 AI 베팅: 결제 데이터가 화려한 모델보다 중요한 이유

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크