도시 인지(Urban Perception)를 위한 시각-언어 모델(VLM) 벤치마크는 신뢰성을 고려하고 협상 가능해야 한다
요약
도시 인지 작업을 위한 시각-언어 모델(VLM) 벤치마크가 인간의 판단 불일치와 기권을 반영해야 한다고 주장하는 연구입니다. 몬트리올 거리 장면 데이터를 통해 모델의 일치도가 인간의 신뢰도와 상관관계가 있음을 입증했습니다.
핵심 포인트
- VLM 벤치마크는 인간의 판단 불일치와 기권을 측정해야 함
- 모델 정렬과 주석 작성자 간 신뢰도 보고가 필수적임
- 레이블 공간과 점수 정책은 협상 가능한 요소로 취급되어야 함
- 모델의 합의도는 차원별 인간 신뢰도와 공변함
시각-언어 모델(Vision-language models, VLMs)은 거리 경관 감사(streetscape auditing), 지도 제작(mapping), 공공 협의(public consultation)와 같은 작업을 위해 거리 수준의 이미지에 대한 구조화된 설명을 생성하는 데 점점 더 많이 사용되고 있습니다. 이러한 용도들은 관찰 가능한 속성(observable attributes)과 평가 범주(appraisal categories)를 결합하며, 인간 대상자는 종종 불일치(disagreement)와 명시적인 무응답(non-response)이 포함된 판단의 분포(distributions of judgments)를 나타냅니다. 본 논문은 도시 인지를 위한 VLM 벤치마킹이 불일치와 기권(abstention)을 측정 결과로 취급해야 하며, 모델 정렬(model alignment)과 함께 주석 작성자 간 신뢰도(inter-annotator reliability)를 보고해야 하고, 출력이 도시 거버넌스(urban governance)에 정보를 제공하기 위한 목적일 경우 레이블 공간(label space)과 점수 정책(scoring policy)을 협상 가능한 산물(negotiable artifacts)로 취급해야 한다고 주장합니다. 우리는 7개의 지역 사회 단체에서 온 12명의 참가자가 30개 차원에 따라 주석을 달은 100개의 몬트리올 거리 장면 벤치마크와, 7개 VLM에 대한 결정론적 제로샷 평가(deterministic zero-shot evaluation)를 통해 이 주장을 뒷받침합니다. 차원 전반에 걸쳐, 인간의 합의(human consensus)에 대한 모델의 일치도는 차원 수준의 인간 신뢰도와 공변(co-varies)하며, 평가 차원인 전체적인 인상(Overall Impression)에 대해 모델과 주석 작성자는 '해당 없음(Not applicable)'의 비율이 다른 것을 포함하여 분포적 불일치(distributional mismatch)를 보입니다. 우리는 벤치마크 제작자, 모델 개발자 및 기관이 평가 보고서에서 불확실성과 벤치마크 가정을 가시화할 수 있도록 하는 조치들을 제안하며 마무리합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기