DRAGON: 도표에 대한 증거 기반 시각적 추론을 위한 벤치마크
요약
DRAGON은 차트, 지도 등 구조화된 시각 자료에 대한 '증거 기반' 추론 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. 기존의 비전-언어 모델(VLMs)들은 높은 정확도를 보이지만, 예측을 뒷받침하는 구체적인 시각적 증거를 식별하지 못하고 텍스트 상관관계에 의존하는 한계가 있었습니다. DRAGON은 주어진 질문과 정답에 대해 모델이 추론의 근거가 되는 경계 상자(bounding boxes)를 정확히 예측하도록 요구함으로써, 도표 해석의 신뢰성과 해석 가능성을 높이는 것을 목표로 합니다.
핵심 포인트
- DRAGON 벤치마크는 구조화된 시각 자료(차트, 지도 등)에 대한 증거 기반 추론 평가를 위해 설계되었습니다.
- 기존 VLM들은 높은 정답률에도 불구하고, 예측을 뒷받침하는 구체적인 시각적 근거 영역(bounding boxes) 식별 능력이 부족했습니다.
- DRAGON은 모델이 답을 정당화하는 데 필요한 모든 관련 시각적 요소(레이블, 축, 연결선 등)의 경계 상자를 예측하도록 요구합니다.
- 11,664개의 주석 처리된 질문 인스턴스를 포함하며, 인간 검증 기반의 테스트 세트와 표준 평가 프레임워크를 공개했습니다.
도표 질문 답변 (DQA) 은 차트, 지도, 인포그래픽, 회로도, 과학적 도표와 같은 구조화된 시각적 표현을 해석하는 모델을 요구합니다. 최근의 비전-언어 모델 (VLMs) 은 이러한 작업에서 높은 정답률을 달성하지만, 정답이 나왔다고 해서 반드시 예측을 지지하는 도표 영역에 추론을 근거로 삼는 것은 아닙니다. 오히려 모델은 답을 검증하기 위해 필요한 시각적 증거를 식별하지 않고 텍스트 상관관계나 데이터셋 아티팩트에 의존할 수 있습니다. 이러한 한계는 도표 추론의 신뢰성 있는 평가를 방해하고 해석 가능성을 낮춥니다. 우리는 도표에 대한 증거 기반 시각적 추론을 평가하기 위한 벤치마크인 DRAGON 을 소개합니다. 주어진 도표, 질문, 그리고 정답이 주어졌을 때, 모델은 답을 정당화하는 데 필요한 시각적 요소에 해당하는 경계 상자 (bounding boxes) 를 예측해야 합니다. 이러한 증거 영역에는 답을 담고 있는 구성 요소, 텍스트 레이블, 범례, 축, 연결선 및 추론 과정에 관여하는 기타 지원 구조물이 포함될 수 있습니다. DRAGON 데이터셋은 ChartQA, Circuit-VQA, InfographicsVQA, MapIQ, MapWise, AI2D 등 여섯 개의 도표 QA 데이터셋에서 수집된 11,664 건의 주석 처리된 질문 인스턴스를 포함합니다. 우리는 인간이 검증한 추론 증거 주석이 포함된 2,445 건 규모의 벤치마크 테스트 세트와 표준화된 평가 프레임워크를 공개합니다. 우리는 최근 출시된 여덟 가지 VLM 을 평가하고 다양한 도표 도메인에서 추론 증거를 국소화하는 능력을 분석했습니다. DRAGON 은 도표 추론에 대한 체계적인 평가를 가능하게 하며, 시각적 증거에 예측을 근거로 하는 모델에 대한 향후 연구를 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기