본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 19:39

DV-World: 현실 세계 시나리오에서의 데이터 시각화 에이전트 평가

요약

본 논문은 실제 환경에서의 복잡한 데이터 시각화(Data Visualization, DV) 능력을 평가하기 위해 새로운 벤치마크인 DV-World를 제안합니다. 기존의 벤치마크들이 가진 코드 샌드박스 제한이나 단일 언어 작업에 국한된 한계를 극복하고자 했습니다. DV-World는 스프레드시트 조작(DV-Sheet), 데이터 적응 및 재구조화(DV-Evolution), 그리고 현실 세계의 모호한 요구사항을 다루는 능동적 의도 정렬(DV-Interact)이라는 세 가지 도메인을 포함하여 총 260개의 작업을 제공합니다. 실험 결과, 현존하는 최첨단 모델들이 실제 복잡한 데이터 시각화 과제 처리에서 심각한 성능 부족을 보였음을 입증하며, 기업 워크플로우에 필요한 현실적인 테스트베드를 제시합니다.

핵심 포인트

  • DV-World는 네이티브 환경 기반, 크로스 플랫폼 진화, 능동적 의도 정렬 등 실제 데이터 시각화의 복잡성을 포괄하는 벤치마크이다.
  • 세 가지 핵심 도메인(DV-Sheet, DV-Evolution, DV-Interact)을 통해 현실 세계의 다양한 워크플로우를 모사한다.
  • 평가 프레임워크는 수치 정밀도 평가와 의미/시각적 이해도를 측정하는 MLLM-as-a-Judge 방식을 결합했다.
  • 최신 모델들이 실제 데이터 시각화 과제에서 기대 이하의 성능을 보여, 해당 분야의 기술적 격차를 명확히 했다.

현실적인 데이터 시각화 (DV) 는 네이티브 환경 기반 (native environmental grounding), 크로스 플랫폼 진화, 그리고 능동적 의도 정렬 (proactive intent alignment) 이 필요합니다. 그러나 기존 벤치마크들은 코드 샌드박스 제한, 단일 언어 생성 전용 작업, 완벽한 의도를 전제로 하는 등의 한계를 가지고 있습니다. 이러한 격차를 해소하기 위해 우리는 현실 세계 전문 라이프사이클을 아우르는 260 개의 작업을 포함하는 DV-World 벤치마크를 소개합니다. DV-World 는 세 가지 도메인을 포괄합니다: 네이티브 스프레드시트 조작 (차트 및 대시보드 생성, 진단적 수리 포함) 을 위한 DV-Sheet, 다양한 프로그래밍 패러다임에 걸쳐 새로운 데이터에 맞춰 참조 시각 아티팩트를 적응하고 재구조화하는 DV-Evolution, 그리고 현실 세계 모호한 요구사항을 시뮬레이션하는 사용자 시뮬레이터와 상호작용하여 능동적 의도 정렬을 수행하는 DV-Interact 입니다. 우리의 하이브리드 평가 프레임워크는 수치 정밀도를 위한 Table-value Alignment 과 판점 기준 (rubrics) 을 활용한 MLLM-as-a-Judge 를 통한 의미-시각 평가를 통합합니다. 실험 결과, 최첨단 모델들의 전반적인 성능이 50% 미만으로 나타났으며, 이는 현실 세계 데이터 시각화의 복잡한 과제 처리에 있어 결정적인 결함을 드러냈습니다. DV-World 는 기업 워크플로우에서 요구되는 다방면의 전문성을 향한 개발을 유도할 수 있는 현실적인 테스트베드를 제공합니다. 우리의 데이터와 코드는
href{https://github.com/DA-Open/DV-World}{이 프로젝트 페이지} 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0