arXiv논문2026. 06. 01. 12:37

VLM-as-a-Judge 평가를 위한 시각 장애인 보조 벤치마크

요약

시각 장애인 보조(VIA) 분야의 VLM 평가를 위한 최초의 벤치마크인 VIABLE을 소개합니다. 기존 VLM 판사들의 낮은 신뢰도와 편향성을 분석하고, 이를 개선하기 위한 추론 시점 에이전트인 VIA-Judge-Agent를 제안합니다.

핵심 포인트

VIA 평가를 위한 최초의 벤치마크 VIABLE 공개
기존 VLM 판사들의 낮은 진단 정확도와 높은 자기 선호율 확인
오픈 소스 모델의 편향성 및 적대적 공격 취약성 입증
정확도 개선을 위한 VIA-Judge-Agent 프레임워크 제안

AI 기반 시각 장애인 보조 (VIA, Visually Impaired Assistance)는 주로 인간 평가의 높은 비용으로 인해 여전히 도전적인 과제로 남아 있습니다. VLM-as-a-Judge (판사로서의 VLM) 패러다임이 유망한 대안이 될 수 있지만, 이는 주로 일반적인 도메인에서만 연구되어 왔습니다. 따라서 우리는 이러한 판사들이 VIA 작업에서도 신뢰될 수 있는지 질문을 던집니다. 이 질문을 조사하기 위해, 우리는 VIA 분야에서 VLM-as-a-Judge 평가를 위한 최초의 벤치마크인 VIABLE (Visually Impaired Assistance Benchmark for VLM-as-a-Judge Evaluation)을 소개합니다. VIABLE은 세 가지 시나리오에 걸쳐 30만 개 이상의 판단 샘플을 포함하며, 12가지 모드 실패 분류 체계(failure taxonomy)를 갖춘 효과성(Effectiveness)–공정성(Impartiality)–안정성(Stability) 프레임워크를 도입합니다. VIABLE을 바탕으로 다양한 모델 규모에 걸친 7개의 판사를 체계적으로 연구한 결과, 기존 모델들은 모든 평가 축에서 대체로 신뢰할 수 없음을 보여줍니다. 가장 강력한 판사인 GPT-5.4는 단일 실패 진단 정확도(single-failure diagnostic accuracy)가 52.6%에 불과하지만, 94.2%라는 가장 높은 자기 선호율(self-preference rate)을 보였습니다. 반면 오픈 소스 판사들은 강한 편향성을 보이며 적대적 공격에 취약합니다. 이러한 문제를 해결하기 위해, 우리는 판사에게 시각적 증거 추출과 분류 체계 기반의 워크플로우를 보강하는 모델 불가지론적(model-agnostic) 추론 시점 하네스인 VIA-Judge-Agent를 제안합니다. 이는 진단 정확도와 시각 장애인(BLV) 사용자가 더 선호하는 다운스트림 VIA 응답 측면에서 긍정적인 개선을 가능하게 합니다. 데이터와 코드는 다음에서 확인할 수 있습니다: https://github.com/YiyiyiZhao/VIABLE

AI 자동 생성 콘텐츠

원문 바로가기

VLM-as-a-Judge 평가를 위한 시각 장애인 보조 벤치마크

요약

핵심 포인트

댓글