관계가 끊어질 때: 회전과 노이즈 하에서 비전-언어 모델의 관계 환각 분석

비전-언어 모델 (VLMs) 은 강력한 다중 모달 성능을 달성하지만, 정확한 객체 간 상호작용에 대한 추론이 필요한 관계 환각 (relation hallucination) 에 취약합니다. 우리는 시각적 왜곡, 특히 회전과 노이즈의 영향을 연구하고, 경미한 왜곡이 모델 및 데이터셋 전반에 걸쳐 관계 추론을 현저히 저하시킨다는 것을 보여줍니다. 또한 프롬프트 기반 증강 및 전처리 전략 (방향 보정 및 노이즈 제거) 을 평가하여, 이러한 방법들이 부분적인 개선 효과를 제공하지만 환각을 완전히 해결하지는 못한다는 사실을 발견했습니다. 우리의 결과는 감각적 견고성과 관계 이해 사이의 간극을 드러내며, 더 견고하고 기하학적 인식을 갖춘 VLMs 의 필요성을 강조합니다.