본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

VLM의 시각적 재검토 능력 검증: 시각적 재검토의 환상과 VisualSwap 프레임워크

요약

본 연구는 VLM이 '이미지를 다시 확인하겠다'는 자기 성찰적 진술을 할 때 실제로 시각적 정보를 재검토하는지 VisualSwap 프레임워크를 통해 검증합니다. 실험 결과, 모델들은 이미지가 바뀌어도 이를 인지하지 못하는 경향이 크며, 특히 사고 모델(thinking models)이 지시 모델보다 더 취약하고 모델 규모를 키워도 이 문제가 해결되지 않음을 밝혀냈습니다.

핵심 포인트

  • VisualSwap 프레임워크와 VS-Bench 데이터셋을 통해 VLM의 시각적 재검토 능력을 테스트함
  • Qwen3-VL, Kimi-VL, ERNIE-VL 등 주요 모델들이 이미지 교체를 제대로 인지하지 못해 정확도가 최대 60%까지 하락함
  • 사고 모델(thinking models)이 일반 지시 모델보다 시각적 변화 인지에 약 3배 더 취약함
  • 사용자의 다회차 지시는 시각적 접지(visual grounding)를 회복시키지만, 모델 스스로 생성한 성찰적 진술은 어텐션(Attention)을 높이지 못함

시각-언어 모델 (Vision-Language Models, VLMs)은 추론 과정에서 "그림을 다시 확인해 보겠습니다"와 같은 자기 성찰적 (self-reflective) 진술을 자주 생성합니다. 이러한 진술이 실제 시각적 재검토 (visual re-examination)를 유도하는 것일까요, 아니면 단순히 학습된 텍스트 패턴에 불과한 것일까요? 우리는 이미지 교체 탐사 프레임워크인 VisualSwap을 통해 이를 조사합니다. 모델이 이미지에 대해 추론한 후, 해당 이미지를 시각적으로는 유사하지만 의미론적으로는 다른 이미지로 교체했을 때 모델이 이를 인지하는지 테스트합니다. 우리는 MathVista, MathVerse, MathVision, 그리고 MMMU-Pro에서 선별한 800개의 이미지 쌍인 VS-Bench를 도입합니다. Qwen3-VL, Kimi-VL, ERNIE-VL에 대한 실험 결과 놀라운 실패가 드러났습니다. 모델들은 교체를 압도적으로 인지하지 못했으며, 정확도가 최대 60%까지 하락했습니다. 직관과는 반대로, 사고 모델 (thinking models)은 지시 모델 (instructed counterparts)보다 약 3배 더 취약하며, 모델 규모를 키우는 것 (scaling)도 해결책이 되지 못합니다. 다회차 (multi-turn) 사용자 지시는 시각적 접지 (visual grounding)를 회복시키지만, 연속적인 생성 과정 중 스스로 생성한 성찰적 진술은 그렇지 못합니다. 어텐션 (Attention) 분석이 그 이유를 설명합니다. 사용자 지시는 시각적 토큰 (visual tokens)에 대한 어텐션을 실질적으로 높이지만, 자기 성찰 (self-reflection)은 그렇지 않습니다. 현재의 VLMs는 시각적 재검토를 수행한다고 주장할 때, 실제로 보기보다는 말하는 경향이 있습니다. 우리의 코드와 데이터셋은 프로젝트 페이지(https://visualswap.github.io)에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0