보는 것이 공유하는 것은 아니다: 일부 시각-언어 모델(VLMs)이 비대칭 대화에서 공통 기반(Common Ground)을 과대평가하는 현상
요약
시각-언어 모델(VLMs)이 대화 중 공유된 정보와 잠재적 정보를 구분하지 못하고 공통 기반을 과대평가하는 편향을 분석한 연구입니다. 모델들이 대화 맥락을 추적하기보다 정적인 지도 정보에 의존하여 정렬(alignment)을 과도하게 예측하는 경향을 확인했습니다.
핵심 포인트
- VLMs가 대화 참여자 간의 실제 공통 기반을 과대평가하는 현상 발견
- 시각적 정보뿐만 아니라 텍스트 설명만으로도 이러한 편향이 재현됨
- 모델이 대화 이력 추적보다 정적인 참조 단서에 의존하는 경향 확인
- Qwen2-VL-8B-Instruct를 포함한 여러 모델에서 해당 패턴 관찰
협력적 대화(collaborative dialogue)에서 공유된 지각(shared perception)이 공유된 해석(shared interpretation)을 보장하지는 않습니다. 상호 이해는 상호작용을 통해 구축되어야 합니다. 본 연구에서는 시각-언어 모델(Vision-Language Models, VLMs)이 그라운딩(grounding)을 통해 대화 참여자 사이에서 공유될 수 있는 것과 이미 공유된 것을 구분할 수 있는지 조사합니다. 우리는 이를 HCRC MapTask 대화에서 추출한 13,077개의 주석이 달린 참조 표현(reference expressions)에 대한 해석 매칭(interpretation-matching) 작업으로 공식화하였으며, 대화 맥락과 지도 정보 접근성을 체계적으로 제어된 조작 하에 VLMs를 평가합니다. 연구 결과, 실제 지도 이미지를 제공하면 전반적인 성능은 향상되지만, 모델이 정렬(alignment)을 과도하게 예측하는 방향으로 편향됨을 보여줍니다. 동일한 지도 내용에 대한 텍스트 설명 또한 이러한 편향을 재현하는 반면, 정보가 없는 이미지는 정렬 예측을 완전히 억제합니다. 이는 이러한 편향이 시각적 채널이 아닌 작업 관련 지도 내용에 의해 유발됨을 나타냅니다. 이러한 성능 향상은 정렬되지 않은 사례에서의 정확도 저하를 대가로 이루어집니다. 캘리브레이션(Calibration) 분석과 참조 체인 추적(reference-chain tracking)은 모델이 대화 이력을 통해 그라운딩이 어떻게 전개되는지를 추적하기보다는 지도상의 정적인 참조 단서(static referential cues)에 의존한다는 점을 시사합니다. 우리는 이러한 패턴을 Qwen3-VL-8B-Instruct에서 가장 명확하게 관찰하였으며, 두 가지 아키텍처 계열의 네 가지 추가 모델에서도 다양한 정도로 관찰하였습니다. 편향을 보이는 모델에서는 지도 내용이 시각적으로 제시되든 텍스트로 제시되든 상호 이해의 증거로 취급되어, 잠재적인 것(potential)과 확립된 공통 기반(established common ground)을 혼동합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기