Chartographer: Vision-Language Models 평가를 위한 반사실적 차트 생성 (Counterfactual Chart
요약
VLM의 시각적 추론 능력을 엄격하게 평가하기 위해 반사실적 차트를 생성하는 프레임워크 Chartographer를 제안합니다. 기존 차트의 데이터를 코드로 역공학하여 변형된 차트를 생성함으로써, 모델이 배경 지식이 아닌 실제 시각적 추론을 통해 답변하는지 검증합니다.
핵심 포인트
- Chartographer 프레임워크를 통한 반사실적 차트 생성
- VLM의 지름길 학습 및 배경 지식 의존 문제 지적
- 차트 역공학 및 실행 가능한 코드 기반의 데이터 변형
- 기존 모델들이 새로운 시각적 추론 경로에서 실패함을 입증
차트 질의응답 (Chart QA) 벤치마크는 정확한 답변을 위해 시각적 추론 (Visual Reasoning)을 요구하는 질문을 던지는 것을 목표로 하지만, 모델들은 종종 지름길을 이용하거나 자신의 배경 지식에 기반하여 차트에 대한 사전 친숙도를 통해 해결책에 도달하곤 합니다. 시각적 추론을 엄격하게 평가하기 위해, 우리는 차트-질문 태스크는 고정된 상태에서 기저의 차트와 그에 상응하는 답변을 변경하는 반사실적 차트 (Counterfactual Charts)를 제안합니다. 우리는 차트를 실행 가능한 코드 (Executable Code)로 역공학 (Reverse Engineer)하고, 재구성 충실도 (Reconstruction Fidelity)를 검증하며, 시드 제어형 반사실적 변형 (Seed-controlled Counterfactual Variants)을 생성하고, 실행 가능한 QA 로직으로부터 새로운 답변을 도출하는 프레임워크인 Chartographer를 소개합니다. 우리는 이 프레임워크를 기존의 차트 QA 데이터셋에 적용하고, 독점 및 오픈 소스 시각-언어 모델 (Vision-Language Models, VLMs)을 평가하여 변동 민감도 (Variation Sensitivity)와 일반화 능력 (Generalizability)을 측정합니다. 반사실적 차트는 단일 차트 성능에 의해 숨겨졌던 실패 사례들을 드러냅니다. 즉, VLMs는 원래의 차트에 올바르게 답변한 후에도 일반화에 실패하는 경우가 많습니다. 우리는 업데이트된 차트가 새로운 시각적 추론 경로를 요구할 때 이러한 실패가 가장 빈번하게 발생한다는 것을 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기