arXiv논문2026. 05. 13. 09:32

적은 데이터로 더 많이 학습하기: 차트 이해를 위한 반사실(Counterfactuals) 활용

요약

본 논문은 Vision-Language Models(VLMs)이 차트를 이해하는 능력을 향상시키기 위해, 단순히 대규모 합성 데이터셋에 의존하는 기존의 지도 미세 조정(SFT) 방식의 한계를 지적합니다. 이를 해결하기 위해 'ChartCF'라는 새로운 데이터 효율적 훈련 프레임워크를 제안하며, 이 프레임워크는 코드 수정을 통한 반사실 데이터 합성, 차트 유사성 기반 샘플 필터링, 그리고 멀티모달 선호도 최적화를 결합합니다. 실험 결과, ChartCF는 적은 양의 데이터를 사용하면서도 강력한 성능을 달성하여 VLM 훈련의 효율성을 크게 높임을 입증했습니다.

핵심 포인트

기존 VLM 기반 차트 이해 모델은 대규모 합성 데이터셋에 의존하는 SFT 방식이 주를 이루어 비효율적일 수 있다.
차트는 프로그램으로 생성된 시각적 아티팩트라는 특성상, 미세한 시각적 변화가 의미론에 큰 영향을 주는 '반사실 민감도' 학습이 중요하다.
제안된 ChartCF 프레임워크는 코드 수정 기반의 반사실 데이터 합성 파이프라인을 통해 이 민감도를 효과적으로 향상시킨다.
ChartCF는 데이터 효율성을 높이기 위해 차트 유사성 기반 샘플 필터링 및 멀티모달 선호도 최적화 전략을 통합한다.

Vision-Language Models (VLMs)는 차트 이해 분야에서 놀라운 발전을 보여왔으며, 이는 주로 점진적으로 커지는 합성 데이터셋에 대한 지도 미세 조정(SFT)에 의해 주도되었습니다. 하지만 SFT 데이터를 단순히 늘리는 것만으로는 비효율적이며, 차트의 핵심 속성, 즉 차트는 프로그램으로 생성된 시각적 아티팩트라는 사실을 간과합니다. 이 경우, 작고 코드 제어되는 시각적 변화가 의미론(semantics)과 정답에 급격한 변화를 유발할 수 있습니다. 이러한 반사실 민감도(counterfactual sensitivity)를 학습하려면 VLM이 미세한 시각적 차이를 구별해야 하지만, 표준 SFT는 훈련 인스턴스를 독립적으로 처리하고 이 행동을 강제하는 데 제한적인 감독만을 제공합니다. 이를 해결하기 위해, 우리는 반사실 민감도를 향상시키도록 설계된 데이터 효율적 훈련 프레임워크인 ChartCF를 소개합니다. ChartCF는 다음으로 구성됩니다: (1) 코드 수정을 통한 반사실 데이터 합성 파이프라인, (2) 개선된 훈련 효율성을 위해 지나치게 어려운 샘플을 필터링하는 차트 유사성 기반 데이터 선택 전략, 그리고 (3) 텍스트 및 시각 양식 전반에 걸친 멀티모달 선호도 최적화. 다섯 가지 벤치마크에서 수행한 실험 결과, ChartCF는 훨씬 적은 훈련 데이터를 사용하면서 강력한 차트 특화 VLM과 동등하거나 우수한 성능을 달성하는 것으로 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

적은 데이터로 더 많이 학습하기: 차트 이해를 위한 반사실(Counterfactuals) 활용

요약

핵심 포인트

댓글