arXiv논문2026. 04. 29. 16:35

VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal

요약

비언어 모델(VLMs)이 다중 모드 시스템의 자동 판정자로서 사용되지만, 이들의 점수는 신뢰할 수 있는 지표가 아닙니다. 본 연구는 컨포멀 예측(conformal prediction)을 사용하여 VLM의 점수를 보정된 예측 구간으로 변환함으로써 이러한 문제를 해결합니다. 분석 결과, 평가 불확실성은 작업 유형에 따라 크게 달라지며, 특히 차트나 수학 추론 같은 복잡한 작업에서 신뢰 구간이 더 넓게 확장됨을 보여줍니다.

핵심 포인트

VLM의 점수 자체는 신뢰성이 낮으므로, 컨포멀 예측을 통해 보정된 예측 구간(calibrated prediction interval)으로 변환해야 합니다.
평가 불확실성은 작업 유형에 따라 크게 달라지며, 미학이나 자연 이미지보다 차트나 수학 추론 같은 복잡한 작업에서 더 넓은 신뢰 구간이 나타납니다.
VLM 판정자는 순위(ranking)는 잘 수행하지만 절대 점수(scoring)의 신뢰도가 낮아지는 '순위-점수 분리' 현상이 발생할 수 있습니다.
신뢰 구간의 너비는 작업 난이도와 주석 품질에 크게 의존하며, 고품질의 다중 주석자 데이터가 더 좁고 정확한 구간을 제공합니다.

비언어 모델 (VLMs) 은 다중 모드 시스템의 자동 판정자로서 점점 더 널리 사용되고 있지만, 그들의 점수는 신뢰성을 나타내는 지표가 되지 못합니다. 우리는 이 문제를 분포 자유형 프레임워크인 컨포멀 예측 (conformal prediction) 을 통해 연구했습니다. 컨포멀 예측은 재학습 없이 점수 토큰 로그 확률 (score-token log-probabilities) 만 사용하여 판정자의 점수를 보정된 예측 구간 (calibrated prediction interval) 으로 변환합니다. 우리는 3 개의 판정자와 14 가지 시각적 작업 범주를 대상으로 컨포멀 예측에 대한 첫 번째 체계적인 분석을 제시합니다. 우리의 결과는 평가 불확실성이 작업에 크게 의존함을 보여줍니다: 미학과 자연 이미지의 경우 구간이 점수 범위의 약 40% 를 덮지만, 차트와 수학 추론의 경우 약 70% 로 확장되어 다중 모드 평가에 대한 정량적 신뢰도 지도를 제공합니다. 우리는 또한 표준 평가 지표로는 포착되지 않는 실패 모드를 확인했습니다. 이는 순위-점수 분리 (ranking-scoring decoupling) 로, 판정자가 높은 순위 상관관계를 달성하면서도 광범위하고 정보 없는 구간을 생성하는 경우입니다. 즉, 응답을 올바르게 순서화하지만 신뢰할 수 있는 절대 점수를 할당하지 못하는 경우입니다. 마지막으로, 구간 너비는 주로 작업 난이도와 주석 품질에 의해 주도됨을 보여줍니다. 즉, 동일한 판정자와 방법을 사용하더라도 깨끗한 다중 주석자 캡셔닝 벤치마크에서는 4.5 배 더 좁은 구간을 얻습니다. 코드: https://github.com/divake/VLM-Judge-Uncertainty

AI 자동 생성 콘텐츠

원문 바로가기

VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal

요약

핵심 포인트

댓글