arXiv논문2026. 06. 01. 11:32

BlueFin: 금융 스프레드시트에서의 LLM 에이전트 벤치마킹

요약

금융 스프레드시트 작업에 특화된 LLM 에이전트 성능 평가 벤치마크인 BlueFin을 소개합니다. 131개의 복잡한 과업과 정교한 루브릭을 통해 기존 최첨단 모델들의 한계를 분석하고 평가 프레임워크를 제공합니다.

핵심 포인트

금융 스프레드시트 조작 및 이해를 위한 전문 벤치마크 BlueFin 제시
전문가 수준의 검증을 거친 3,225개의 세밀한 평가 루브릭 포함
최첨단 LLM들이 금융 과업에서 평균 50% 미만의 낮은 성능을 보임
모델들이 동적 정확성(dynamic correctness) 측면에서 취약함을 확인

우리는 전문 금융 분야의 스프레드시트 워크북(spreadsheet workbooks)에 대한 합성(synthesis), 조작(manipulation), 그리고 이해(comprehension) 과업을 대규모 언어 모델 (LLM) 에이전트에게 부여하는 벤치마크인 BlueFin을 제시합니다. 스프레드시트 소프트웨어의 유료 사용자 전 세계 인구 추정치는 수억 명에 달하며, 이는 전문 개발자(professional developers)의 추정 전 세계 인구보다 한 자릿수 더 많은 규모임에도 불구하고, 스프레드시트 영역에서 LLM의 능력을 탐구하고 확장하는 데 투입된 자원은 상대적으로 적었으며, 전문 금융 직무에서 마주하는 실제 직업적 과업을 반영하는 데 할애된 자원은 더욱 적었습니다. 이에 대응하여, 우리는 해당 분야에서 실무적 관련성을 가진 131개의 도전적이고 복잡한 과업 세트를 큐레이션하였으며, 여기에는 3,225개의 세밀한 루브릭(rubric) 기준이 포함되어 있습니다. 특히, 우리의 루브릭 기준과 언어 모델(LM) judge 평가는 전문가 인간 어노테이터(human annotators) 팀에 의해 검증되었으며, 그 결과 프로그램 방식으로 검증하기는 어렵지만 LM judge 에이전트에 의해 신뢰성 있게 평가될 수 있는 복잡한 과업에 대한 고품질의 세밀한 평가를 가능하게 합니다. 우리의 judge는 macro-F1 점수 0.839와 함께 전문가 합의($α=0.826$)와 대등한 수준을 달성했습니다. 최첨단(Frontier) LLM들은 이 도전적인 벤치마크에서 저조한 성능을 보였으며, 가장 강력한 LLM조차 과업 전반에 걸쳐 평균 50% 미만의 점수를 기록했습니다. 모델들은 특히 동적 정확성(dynamic correctness) 측면에서 취약점을 보였습니다. 우리의 기여에는 세 가지 카테고리의 스프레드시트 과업에 걸친 예시 데이터셋, 오픈 소스 하네스(harness) 및 에이전트 평가 프레임워크, 그리고 우리 벤치마크에 대한 기존 최첨단 모델들의 성능 특성 분석이 포함됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

BlueFin: 금융 스프레드시트에서의 LLM 에이전트 벤치마킹

요약

핵심 포인트

댓글