arXiv논문2026. 05. 27. 12:19

차트 데이터 추출을 위한 시각-언어 모델 (VLM) 셀프 앙상블 기법

요약

차트 이미지에서 데이터를 정확하게 추출하기 위해 동일한 VLM으로부터 여러 출력을 샘플링하여 집계하는 셀프 앙상블 기법을 제안합니다. 수렴 감지 및 불확실성 추정 기능을 포함하며, 복잡한 차트 대응을 위한 새로운 벤치마크인 WB-ChartExtract를 도입했습니다.

핵심 포인트

VLM 셀프 앙상블을 통한 차트-테이블 추출 정확도 향상
셀 단위 중앙값 집계 및 수렴 감지 기능 도입
샘플 간 분산을 활용한 추출 불확실성 추정 가능
고난도 차트용 신규 벤치마크 WB-ChartExtract 제안

차트는 정량적 정보를 효과적으로 전달하지만, 그 근간이 되는 데이터는 종종 이미지 형태로 갇혀 있어 재사용과 분석을 방해합니다. 차트를 수동으로 디지털화하는 작업은 시간이 많이 소요되고 오류가 발생하기 쉬워, 자동화된 차트-테이블 추출 (chart-to-table extraction)의 필요성을 불러일으킵니다. 최근의 접근 방식들은 특화된 시각-언어 모델 (Vision-Language Models, VLMs)을 사용하지만, 데이터 포인트가 많거나 스타일적 변형이 큰 차트에서는 여전히 성능이 뒤처집니다. 본 논문에서는 고정된 차트 이미지에 대해 동일한 VLM으로부터 여러 개의 테이블 출력을 반복적으로 샘플링하고, 이를 개별 테이블 셀 (table cells) 수준에서 집계하는 VLM 셀프 앙상블 (self-ensembling) 방법을 제안합니다. 우리는 후보 테이블들을 정렬하고 수치 값에 대해 셀별 중앙값 (per-cell medians)을 취함으로써 더욱 정확한 합의 테이블 (consensus table)을 생성합니다. 또한, 우리의 방법에는 집계된 테이블이 안정화되면 샘플링을 중단하는 수렴 감지 (convergence detection) 기능과, 사용자가 추출 신뢰도를 평가할 수 있도록 샘플 간 분산 (dispersion)에 기반한 불확실성 추정 (uncertainty estimation) 기능이 포함되어 있습니다. 기존의 차트 추출 벤치마크들은 개선의 여지가 제한적인 비교적 단순한 플롯들을 포함하고 있기 때문에, 우리는 세계은행 (World Bank) 데이터를 기반으로 구축되어 더 복잡하고 스타일적으로 다양한 차트들을 포함하는 새로운 벤치마크인 WB-ChartExtract를 도입합니다. 평균적으로 이 벤치마크의 차트들은 ChartQA 벤치마크의 차트들보다 7배 더 많은 데이터 포인트를 포함하고 있습니다. ChartQA와 WB-ChartExtract 모두에서 우리의 접근 방식은 단일 패스 (single-pass) VLM 출력보다 추출 정확도를 향상시켰으며, WB-ChartExtract에서는 앙상블 후 최대 23%의 상대적 개선을 달성했습니다. 더 넓게는, 우리의 방법은 차트 이미지 안에 고립되어 있던 테이블 데이터를 해제하여 후속 분석과 재사용을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

차트 데이터 추출을 위한 시각-언어 모델 (VLM) 셀프 앙상블 기법

요약

핵심 포인트

댓글