TABVERSE: LLM 및 VLM의 교차 형식 테이블 이해 벤치마킹
요약
TABVERSE는 동일한 테이블 콘텐츠를 다양한 구조적 형식(HTML, Markdown, LaTeX)과 이미지로 변환하여 LLM 및 VLM의 성능을 체계적으로 평가하는 멀티모달 벤치마크입니다. 연구 결과, 표현 방식에 따라 모델의 성능 차이가 크게 나타나며 HTML이 텍스트 형식 중 가장 견고한 성능을 보였습니다.
핵심 포인트
- 동일 콘텐츠를 다양한 형식으로 제공하여 표현 효과를 분리 평가
- QA, 구조적 이해(SUC), 구조 재구성(SR) 세 가지 작업 수행
- 모델은 이미지보다 구조화된 텍스트에서 일반적으로 더 높은 성능 발휘
- HTML이 텍스트 기반 테이블 이해에서 가장 견고한 형식으로 확인
대규모 언어 모델 (LLMs) 및 시각-언어 모델 (VLMs)은 테이블 추론 (table reasoning) 작업에 대해 점점 더 많이 평가되고 있지만, 테이블 표현 (table representation)의 역할은 여전히 충분히 탐구되지 않은 상태로 남아 있습니다. 실제로 동일한 테이블 콘텐츠가 HTML, Markdown, LaTeX와 같은 서로 다른 구조적 형식이나 렌더링된 이미지로 나타날 수 있습니다. 그러나 기존의 평가 방식은 콘텐츠, 형식, 레이아웃 및 모달리티 (modality)가 함께 변하는 경우가 많아, 표현의 효과를 분리하여 파악하기 어렵습니다. 우리는 동일한 테이블 콘텐츠를 여러 구조적 형식 및 렌더링된 이미지와 정렬하고, 질문 카테고리 및 난이도 태그를 포함하는 통제된 멀티모달 테이블 벤치마크인 TABVERSE를 소개합니다. 이러한 설계는 테이블 콘텐츠를 고정된 상태로 유지하면서 표현의 효과를 체계적으로 평가할 수 있게 합니다. 우리는 세 가지 작업인 질의응답 (QA), 구조적 이해 능력 (SUC), 그리고 구조 재구성 (SR)을 통해 LLMs 및 VLMs를 평가합니다. 연구 결과, 표현 방식의 선택이 테이블 이해에 상당한 영향을 미치는 것으로 나타났습니다. 모델들은 일반적으로 렌더링된 이미지보다 구조화된 텍스트에서 더 나은 성능을 보이지만, 이 격차의 크기는 작업, 모델 및 형식에 따라 달라집니다. HTML은 종종 가장 견고한 텍스트 형식으로 나타나는 반면, 행에 민감한 구조적 작업과 구문적으로 사용 가능한 LaTeX 재구성은 여전히 어려운 과제로 남아 있습니다. 이러한 발견은 테이블 표현이 신뢰할 수 있는 테이블 평가의 핵심 요소임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기