VLM의 시각적 재검토 능력 검증: 시각적 재검토의 환상과 VisualSwap 프레임워크

시각-언어 모델 (Vision-Language Models, VLMs)은 추론 과정에서 "그림을 다시 확인해 보겠습니다"와 같은 자기 성찰적 (self-reflective) 진술을 자주 생성합니다. 이러한 진술이 실제 시각적 재검토 (visual re-examination)를 유도하는 것일까요, 아니면 단순히 학습된 텍스트 패턴에 불과한 것일까요? 우리는 이미지 교체 탐사 프레임워크인 VisualSwap을 통해 이를 조사합니다. 모델이 이미지에 대해 추론한 후, 해당 이미지를 시각적으로는 유사하지만 의미론적으로는 다른 이미지로 교체했을 때 모델이 이를 인지하는지 테스트합니다. 우리는 MathVista, MathVerse, MathVision, 그리고 MMMU-Pro에서 선별한 800개의 이미지 쌍인 VS-Bench를 도입합니다. Qwen3-VL, Kimi-VL, ERNIE-VL에 대한 실험 결과 놀라운 실패가 드러났습니다. 모델들은 교체를 압도적으로 인지하지 못했으며, 정확도가 최대 60%까지 하락했습니다. 직관과는 반대로, 사고 모델 (thinking models)은 지시 모델 (instructed counterparts)보다 약 3배 더 취약하며, 모델 규모를 키우는 것 (scaling)도 해결책이 되지 못합니다. 다회차 (multi-turn) 사용자 지시는 시각적 접지 (visual grounding)를 회복시키지만, 연속적인 생성 과정 중 스스로 생성한 성찰적 진술은 그렇지 못합니다. 어텐션 (Attention) 분석이 그 이유를 설명합니다. 사용자 지시는 시각적 토큰 (visual tokens)에 대한 어텐션을 실질적으로 높이지만, 자기 성찰 (self-reflection)은 그렇지 않습니다. 현재의 VLMs는 시각적 재검토를 수행한다고 주장할 때, 실제로 보기보다는 말하는 경향이 있습니다. 우리의 코드와 데이터셋은 프로젝트 페이지(https://visualswap.github.io)에서 확인할 수 있습니다.

Insights

VLM의 시각적 재검토 능력 검증: 시각적 재검토의 환상과 VisualSwap 프레임워크

요약

핵심 포인트

댓글

Northern Trust, Visa 수익에 힘입은 강력한 2분기 실적 발표 후 주가 소폭 상승 (NASDAQ:NTRS)

Oatly, 2분기 매출 예상치 상회 및 전망치 개선에 주가 급등 (NASDAQ:OTLY)

우리는 14,085개의 x402 엔드포인트(Endpoints)를 카탈로그화했습니다. 그중 10,508개는 단 하나의 도메인에서 발생했습니다.

1st Source GAAP EPS $1.95로 $0.24 상회, 매출 $118M로 $3.87M 상회

Northern Trust, Visa 수익에 힘입은 강력한 2분기 실적 발표 후 주가 소폭 상승 (NASDAQ:NTRS)

Oatly, 2분기 매출 예상치 상회 및 전망치 개선에 주가 급등 (NASDAQ:OTLY)

우리는 14,085개의 x402 엔드포인트(Endpoints)를 카탈로그화했습니다. 그중 10,508개는 단 하나의 도메인에서 발생했습니다.

1st Source GAAP EPS $1.95로 $0.24 상회, 매출 $118M로 $3.87M 상회