SpreadsheetBench 2: 엔드-투-엔드 비즈니스 스프레드시트 워크플로우에서의 에이전트 평가
요약
실제 비즈니스 워크플로우를 반영한 스프레드시트 에이전트 평가용 벤치마크인 SpreadsheetBench 2를 소개합니다. 생성, 디버깅, 시각화 작업을 포함하며, 최신 LLM들의 성능이 실제 업무에 적용하기에는 아직 부족함을 보여줍니다.
핵심 포인트
- 단일 작업이 아닌 엔드-투-엔드 워크플로우 중심의 벤치마크
- 재무 보고서 및 기업 공시 등 실제 비즈니스 데이터 활용
- 8개 프런티어 LLM 평가 결과, 전체 정확도 34.89%로 낮은 성능 기록
- 주요 실패 원인으로 불충분한 시트 검사와 잘못된 셀 선택 식별
스프레드시트(Spreadsheets)는 비즈니스 분석, 재무 모델링(financial modeling), 보고 및 의사결정에 널리 사용됩니다. 그러나 기존의 대부분의 스프레드시트 벤치마크(benchmarks)는 단일 수식 생성이나 로컬 셀 편집과 같은 고립된 작업만을 평가하며, 따라서 실제 비즈니스 환경에서의 엔드-투-엔드(end-to-end) 워크플로우를 포착하지 못합니다. 우리는 생성(generation), 디버깅(debugging), 시각화(visualization)의 세 가지 작업 범주를 다루는 스프레드시트 에이전트를 위한 워크플로우 수준의 벤치마크인 \textsc{SpreadsheetBench 2}를 소개합니다. 이 벤치마크는 재무 보고서 및 기업 공시를 포함한 실제 비즈니스 데이터로 구축되었으며, 도메인 전문가들에 의해 주석이 달리고 검증되었습니다. 이 벤치마크는 321개의 작업을 포함하고 있으며, 각 인스턴스는 평균 11.8개의 워크시트(worksheets)를 포함하고 593.5개의 셀 수정(cell modifications)을 요구하며, 이는 시트 간 의존성(cross-sheet dependencies)이 있는 대규모 다중 시트 통합 문서(workbooks)를 반영합니다. 우리는 통합된 멀티턴(multi-turn) 에이전트 스캐폴드(scaffold) 하에서 8개의 프런티어 거대 언어 모델(frontier large language models)을 평가하였으며, 추가적으로 보완적인 베이스라인(baselines)으로서 여러 LLM 기반 스프레드시트 제품들을 포함했습니다. 결과에 따르면 현재의 시스템들은 실제 워크플로우에서 신뢰할 수 있는 수준과는 여전히 거리가 먼 것으로 나타났습니다. 가장 성능이 좋은 모델의 전체 작업 정확도(overall task accuracy)는 34.89%에 불과하며, 디버깅 정확도는 12.00%로 매우 낮았습니다. 궤적 분석(Trajectory analysis)과 실패 분류 체계(failure taxonomy)는 불충분한 스프레드시트 검사(spreadsheet inspection)와 잘못된 대상 셀 선택(incorrect target-cell selection)이 주요 병목 현상임을 나타냅니다. 종합적으로, 이러한 발견은 \textsc{SpreadsheetBench 2}를 신뢰할 수 있는 스프레드시트 자동화를 발전시키기 위한 도전적인 테스트베드(testbed)로 자리매김하게 합니다. 프로젝트 페이지: https://spreadsheetbench.github.io/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기