DRAGON: 도표에 대한 증거 기반 시각적 추론을 위한 벤치마크

도표 질문 답변 (DQA) 은 차트, 지도, 인포그래픽, 회로도, 과학적 도표와 같은 구조화된 시각적 표현을 해석하는 모델을 요구합니다. 최근의 비전-언어 모델 (VLMs) 은 이러한 작업에서 높은 정답률을 달성하지만, 정답이 나왔다고 해서 반드시 예측을 지지하는 도표 영역에 추론을 근거로 삼는 것은 아닙니다. 오히려 모델은 답을 검증하기 위해 필요한 시각적 증거를 식별하지 않고 텍스트 상관관계나 데이터셋 아티팩트에 의존할 수 있습니다. 이러한 한계는 도표 추론의 신뢰성 있는 평가를 방해하고 해석 가능성을 낮춥니다. 우리는 도표에 대한 증거 기반 시각적 추론을 평가하기 위한 벤치마크인 DRAGON 을 소개합니다. 주어진 도표, 질문, 그리고 정답이 주어졌을 때, 모델은 답을 정당화하는 데 필요한 시각적 요소에 해당하는 경계 상자 (bounding boxes) 를 예측해야 합니다. 이러한 증거 영역에는 답을 담고 있는 구성 요소, 텍스트 레이블, 범례, 축, 연결선 및 추론 과정에 관여하는 기타 지원 구조물이 포함될 수 있습니다. DRAGON 데이터셋은 ChartQA, Circuit-VQA, InfographicsVQA, MapIQ, MapWise, AI2D 등 여섯 개의 도표 QA 데이터셋에서 수집된 11,664 건의 주석 처리된 질문 인스턴스를 포함합니다. 우리는 인간이 검증한 추론 증거 주석이 포함된 2,445 건 규모의 벤치마크 테스트 세트와 표준화된 평가 프레임워크를 공개합니다. 우리는 최근 출시된 여덟 가지 VLM 을 평가하고 다양한 도표 도메인에서 추론 증거를 국소화하는 능력을 분석했습니다. DRAGON 은 도표 추론에 대한 체계적인 평가를 가능하게 하며, 시각적 증거에 예측을 근거로 하는 모델에 대한 향후 연구를 지원합니다.

Insights

DRAGON: 도표에 대한 증거 기반 시각적 추론을 위한 벤치마크

요약

핵심 포인트

댓글

llama.cpp MTP 투기적 디코딩(speculative decoding) 요약: 2026년 7월 기준 Dense 모델에서는 큰 이득

하나의 에이전트에 3개의 MCP 서버를 연결했더니 무서울 정도로 빨라졌다

당신의 CLAUDE.md는 확장되지 않습니다. AI 표준을 코드로 버전 관리하세요.

플라스틱 전자책 단말기 케이스가 분류(Classifier) 문제로 변할 때

llama.cpp MTP 투기적 디코딩(speculative decoding) 요약: 2026년 7월 기준 Dense 모델에서는 큰 이득

하나의 에이전트에 3개의 MCP 서버를 연결했더니 무서울 정도로 빨라졌다

당신의 CLAUDE.md는 확장되지 않습니다. AI 표준을 코드로 버전 관리하세요.

플라스틱 전자책 단말기 케이스가 분류(Classifier) 문제로 변할 때