arXiv논문2026. 05. 22. 20:43

WorkstreamBench: 금융 분야의 엔드 투 엔드 (End-to-End) 스프레드시트 작업에 대한 LLM 에이전트 평가

요약

금융 분야의 복잡한 스프레드시트 워크플로우를 수행하는 LLM 에이전트를 평가하기 위한 새로운 벤치마크인 WorkstreamBench를 소개합니다. 정확도, 수식, 형식을 포함한 다차원적 평가 체계를 통해 에이전트의 실질적인 금융 모델링 능력을 측정합니다.

핵심 포인트

금융 워크플로우 중심의 엔드 투 엔드 에이전트 평가 체계 제안
정확도, 수식, 형식을 포함한 다차원적 평가 분류 체계 개발
Claude 제품군이 벤치마크에서 가장 우수한 성능을 기록
복잡한 연쇄 계산 작업 시 에이전트의 성능 급격히 저하

LLM 에이전트(LLM agents)는 상위 수준의 사용자 지침으로부터 완전한 결과물을 생성하며 엔드 투 엔드 (End-to-End) 워크플로우를 수행할 것이라는 기대가 점점 높아지고 있습니다. 기업의 요구를 충족하기 위해, 최첨단 AI 연구소(frontier AI labs)들은 처음부터 전체 스프레드시트를 구축할 수 있는 에이전트들을 개발해 왔습니다. 이는 재무 모델링 (financial modeling), 예측 (forecasting), 시나리오 분석 (scenario analysis)과 같은 핵심 워크플로우가 일반적으로 스프레드시트를 통해 수행되는 금융 분야에서 특히 중요합니다. 그러나 기존의 스프레드시트 벤치마크 (benchmarks)는 질의응답 (question-answering)이나 단일 수식 수정에 집중할 뿐, 이러한 고급 능력을 측정하지는 못합니다. 이러한 격차를 해소하기 위해, 우리는 모델링 및 시나리오 분석과 같이 경제적으로 중요한 금융 워크플로우에 초점을 맞추어, 엔드 투 엔드 (End-to-End) 스프레드시트 작업에 대한 에이전트의 첫 번째 평가 중 하나를 제공합니다. 해당 작업의 결과물은 통상적으로 여러 이해관계자에 의해 검토되고 수정되므로, 그 품질을 판단하기 위해서는 가독성 (readability)이나 수정 용이성 (ease of modification)과 같은 상위 수준의 기준이 반드시 포함되어야 합니다. 솔루션 품질의 다차원적인 특성을 반영하기 위해, 우리는 전문적인 표준을 반영하는 세부 기준들로 구성된 정확도 (Accuracy), 수식 (Formula), 형식 (Format)의 세 가지 차원을 포함하는 평가 분류 체계 (evaluation taxonomy)를 개발했습니다. 정성적 검토 결과, Claude 제품군이 벤치마크를 선도하며 가장 전문적으로 보이는 결과물을 생성했지만, 가장 강력한 에이전트들조차 전문적인 금융 표준에 미치지 못하는 경우가 빈번하며, 몇 단계의 연쇄 계산 (chained calculations) 이상의 난이도로 증가함에 따라 성능이 급격히 저하됩니다. 이는 현재의 에이전트들이 실제 워크플로우가 요구하는 복잡성 수준에서 전문적인 품질의 스프레드시트를 아직 신뢰성 있게 생성할 수 없음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

WorkstreamBench: 금융 분야의 엔드 투 엔드 (End-to-End) 스프레드시트 작업에 대한 LLM 에이전트 평가

요약

핵심 포인트

댓글