보는 것이 공유하는 것은 아니다: 일부 시각-언어 모델(VLMs)이 비대칭 대화에서 공통 기반(Common Ground)을 과대평가하는 현상

협력적 대화(collaborative dialogue)에서 공유된 지각(shared perception)이 공유된 해석(shared interpretation)을 보장하지는 않습니다. 상호 이해는 상호작용을 통해 구축되어야 합니다. 본 연구에서는 시각-언어 모델(Vision-Language Models, VLMs)이 그라운딩(grounding)을 통해 대화 참여자 사이에서 공유될 수 있는 것과 이미 공유된 것을 구분할 수 있는지 조사합니다. 우리는 이를 HCRC MapTask 대화에서 추출한 13,077개의 주석이 달린 참조 표현(reference expressions)에 대한 해석 매칭(interpretation-matching) 작업으로 공식화하였으며, 대화 맥락과 지도 정보 접근성을 체계적으로 제어된 조작 하에 VLMs를 평가합니다. 연구 결과, 실제 지도 이미지를 제공하면 전반적인 성능은 향상되지만, 모델이 정렬(alignment)을 과도하게 예측하는 방향으로 편향됨을 보여줍니다. 동일한 지도 내용에 대한 텍스트 설명 또한 이러한 편향을 재현하는 반면, 정보가 없는 이미지는 정렬 예측을 완전히 억제합니다. 이는 이러한 편향이 시각적 채널이 아닌 작업 관련 지도 내용에 의해 유발됨을 나타냅니다. 이러한 성능 향상은 정렬되지 않은 사례에서의 정확도 저하를 대가로 이루어집니다. 캘리브레이션(Calibration) 분석과 참조 체인 추적(reference-chain tracking)은 모델이 대화 이력을 통해 그라운딩이 어떻게 전개되는지를 추적하기보다는 지도상의 정적인 참조 단서(static referential cues)에 의존한다는 점을 시사합니다. 우리는 이러한 패턴을 Qwen3-VL-8B-Instruct에서 가장 명확하게 관찰하였으며, 두 가지 아키텍처 계열의 네 가지 추가 모델에서도 다양한 정도로 관찰하였습니다. 편향을 보이는 모델에서는 지도 내용이 시각적으로 제시되든 텍스트로 제시되든 상호 이해의 증거로 취급되어, 잠재적인 것(potential)과 확립된 공통 기반(established common ground)을 혼동합니다.

Insights

보는 것이 공유하는 것은 아니다: 일부 시각-언어 모델(VLMs)이 비대칭 대화에서 공통 기반(Common Ground)을 과대평가하는 현상

요약

핵심 포인트

댓글

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기