실제 이미지, 더 나쁜 판단: 구체성(Concreteness) 및 형상성(Imagery)에 대한 시각-언어 모델(VLM) 평가
요약
시각-언어 모델(VLM)이 어휘 판단 시 유용한 시각적 증거와 부수적인 이미지 문맥을 제대로 구분하는지 분석한 연구입니다. 실제 이미지 문맥이 오히려 모델의 정렬을 저해하고 가짜 시각적 단서에 민감하게 반응할 수 있음을 발견했습니다.
핵심 포인트
- VLM이 시각적 증거와 부수적 문맥을 구분하는 능력 검토
- 실제 이미지가 어휘 판단의 인간 정렬을 저해할 수 있음
- 가짜 시각적 단서에 대한 민감도 및 표현 변화 확인
- 텍스트 집중 지시어를 통해 성능 저하 완화 가능
멀티모달 모델(Multimodal models)에서 시각적 입력이 언어 이해를 향상시킨다고 흔히 가정됩니다. 우리는 시각-언어 모델(Vision-Language Models, VLMs)이 어휘 판단(Lexical judgments) 시 유용한 시각적 증거와 부수적인 이미지 문맥(Incidental image context)을 구분할 수 있는지 질문함으로써 이 가정을 검토합니다. 우리는 추상적이고 형상성(Imagery)이 낮은 단어부터 구체적이고 형상성이 높은 단어에 이르기까지, 기대되는 시각적 관련성이 다양한 단어들을 포괄할 수 있도록 인간의 구체성(Concreteness) 및 형상성(Imagery) 등급을 사용합니다. 연구 결과, 실제 이미지 문맥(Real-image contexts)이 일관된 이득을 가져다주지 않으며, 특히 시각적 증거가 가장 관련성이 낮을 때 인간의 등급과의 정렬(Alignment)을 저해하는 경우가 많다는 것을 발견했습니다. 프로빙(Probing)과 정준 상관 분석(Canonical correlation analysis)을 수행하고 기여도 사례 연구(Attribution case study)를 통해 보완한 결과, 실제 이미지 문맥이 표현의 변화(Representational shifts) 및 가짜 시각적 단서(Spurious visual cues)에 대한 더 큰 민감도와 연관되어 있으며, 이는 목표로 하는 어휘적 특성의 회복력(Recoverability)이 약해지는 것과 일치함을 확인했습니다. 나아가, 추론(Inference) 시 모델에게 텍스트 콘텐츠에만 집중하도록 지시하는 것이 이러한 성능 저하를 줄일 수 있으며, 특히 취약한 하위 집합(Subsets)에서 가장 뚜렷한 이득을 얻을 수 있음을 보여줍니다. 우리의 연구 결과는 현재의 지시어 튜닝된(Instruction-tuned) VLMs가 시각적 문맥이 언제 어휘 판단에 영향을 미쳐야 하는지에 대해 더 나은 보정(Calibration)이 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기