근거 기반인가 추측인가? 블라인드 이미지 대조적 순위링킹을 통한 LVLM 신뢰도 추정
요약
본 논문은 대규모 비전-언어 모델(LVLM)이 시각적 근거 없이 언어 사전 지식만으로 자신감 있는 응답을 생성하는 '시각적 근거 부족' 문제를 해결하기 위한 새로운 신뢰도 추정 프레임워크인 BICR(Blind-Image Contrastive Ranking)을 제안합니다. BICR은 실제 이미지와 이미지를 검게 처리한 가상 시나리오의 숨겨진 상태를 대조적으로 추출하고, 이 차이를 활용하여 모델이 실제로 이미지에 의존했는지 여부를 판단하는 순위 손실로 정규화됩니다. 실험 결과, BICR은 다양한 LVLM 벤치마크에서 보정 및 판별 성능 모두에서 우수한 결과를 보여주었으며, 적은 파라미터로도 강력한 성능과 강건성을 입증했습니다.
핵심 포인트
- LVLM의 '시각적 근거 부족(visual ungroundedness)' 문제를 해결하기 위한 새로운 프레임워크 BICR을 제안함.
- BICR은 실제 이미지와 블랙아웃된 이미지를 대조적으로 사용하여 모델이 시각 정보에 의존했는지 여부를 판단합니다.
- 프레임워크는 순위 손실(ranking loss)을 통해 시각적 근거를 신뢰성의 중요한 신호로 인식하도록 학습됩니다.
- VQA, 객체 환각 탐지 등 다양한 벤치마크에서 BICR은 최고의 크로스-LVLM 평균 성능과 강력한 판별 이득을 달성했습니다.
대규모 비전-언어 모델(LVLM)은 시각적 근거 부족 문제(visual ungroundedness)를 겪습니다. 즉, 이미지가 예측에 아무런 기여를 하지 않더라도 언어 사전 지식(language priors)만으로 유창하고 자신감 있으며 심지어 정확한 응답을 생성할 수 있습니다. 기존의 신뢰도 추정 방법들은 이를 감지할 수 없습니다. 왜냐하면 이 방법들은 정상적인 추론 과정에서 모델의 동작만을 관찰하며, 예측이 이미지에 의해 형성되었는지 아니면 텍스트만으로 형성되었는지를 판단하는 메커니즘이 없기 때문입니다. 우리는 BICR (Blind-Image Contrastive Ranking)이라는 모델 비종속적(model-agnostic) 신뢰도 추정 프레임워크를 소개합니다. 이 프레임워크는 학습 과정에서 이러한 대조(contrast)를 명시적으로 만들어내는데, 이를 위해 고정된 LVLM으로부터 숨겨진 상태(hidden states)를 두 번 추출합니다. 한 번은 실제 이미지-질문 쌍으로, 그리고 다른 한 번은 질문을 고정한 채 이미지를 검게 처리한(blacked out) 경우로 각각 수행합니다. 가벼운 프로브(probe)는 실제 이미지의 숨겨진 상태에 대해 학습되고, 블랙아웃된 뷰에서 높은 신뢰도를 보이는 것을 패널티하는 순위 손실(ranking loss)로 정규화됩니다. 이를 통해 시각적 근거를 추가적인 추론 비용 없이 신뢰성의 신호로 인식하도록 만듭니다. 비전 질문 응답(visual question answering), 객체 환각 탐지(object hallucination detection), 의료 영상, 금융 문서 이해를 포괄하는 벤치마크에서 다섯 가지 최신 LVLM과 일곱 가지 베이스라인을 통해 평가한 결과, BICR은 보정(calibration)과 판별(discrimination) 모두에서 최고의 크로스-LVLM 평균 성능을 달성했습니다. 특히 통계적으로 유의미한 판별 이득을 보여주었으며, 가장 강력한 프로빙 베이스라인보다 4~18배 적은 파라미터로 클러스터 인식 분석(cluster-aware analysis)에도 강건함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기