본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:20

관계가 끊어질 때: 회전과 노이즈 하에서 비전-언어 모델의 관계 환각 분석

요약

본 논문은 비전-언어 모델(VLMs)이 객체 간 상호작용 추론에 취약한 '관계 환각' 문제를 다룹니다. 특히 이미지의 회전이나 노이즈 같은 시각적 왜곡이 관계 이해 능력을 크게 저하시킨다는 것을 실험적으로 입증했습니다. 연구진은 프롬프트 기반 전처리 전략을 평가했지만, 이들이 근본적인 환각 문제를 완전히 해결하지 못하며, 더 견고한 기하학적 인식을 갖춘 VLM 개발의 필요성을 제기합니다.

핵심 포인트

  • VLMs는 객체 간 상호작용 추론에 필요한 '관계 환각(relation hallucination)' 문제에 취약하다.
  • 이미지 회전이나 노이즈 같은 경미한 시각적 왜곡만으로도 모델의 관계 이해 능력이 현저히 저하된다.
  • 프롬프트 기반 전처리 및 증강 전략은 부분적인 개선 효과를 보였으나, 환각 문제를 근본적으로 해결하지 못했다.
  • 연구 결과는 VLM이 감각적 견고성(perceptual robustness)과 관계 이해 능력 사이의 간극을 가지고 있음을 보여준다.

비전-언어 모델 (VLMs) 은 강력한 다중 모달 성능을 달성하지만, 정확한 객체 간 상호작용에 대한 추론이 필요한 관계 환각 (relation hallucination) 에 취약합니다. 우리는 시각적 왜곡, 특히 회전과 노이즈의 영향을 연구하고, 경미한 왜곡이 모델 및 데이터셋 전반에 걸쳐 관계 추론을 현저히 저하시킨다는 것을 보여줍니다. 또한 프롬프트 기반 증강 및 전처리 전략 (방향 보정 및 노이즈 제거) 을 평가하여, 이러한 방법들이 부분적인 개선 효과를 제공하지만 환각을 완전히 해결하지는 못한다는 사실을 발견했습니다. 우리의 결과는 감각적 견고성과 관계 이해 사이의 간극을 드러내며, 더 견고하고 기하학적 인식을 갖춘 VLMs 의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0