arXiv논문2026. 06. 03. 11:31

BigFinanceBench: 금융 연구 에이전트를 위한 워크플로우 기반 벤치마크

요약

금융 연구 에이전트의 도출 과정을 정밀하게 평가하기 위한 워크플로우 기반 벤치마크인 BigFinanceBench를 소개합니다. 기존 벤치마크와 달리 최종 답변뿐만 아니라 단계별 추론 과정과 근거를 검증할 수 있는 루브릭을 제공합니다.

핵심 포인트

928개의 전문가 작성 금융 연구 과제 포함
단계별 검증이 가능한 점수 가중 루브릭 적용
최종 답변 정확도 외에 도출 과정의 품질 측정 가능
현존하는 최첨단 에이전트들의 금융 워크플로우 능력 한계 확인

금융 연구 답변은 다른 분석가가 해당 답변이 어떻게 생성되었는지 감사할 수 있을 때에만 의사결정에 유의미합니다. 즉, 어떤 출처가 선택되었는지, 어떤 기간과 회계 정의가 사용되었는지, 어떤 가정이 세워졌는지, 그리고 계산이 어떻게 수행되었는지를 알 수 있어야 합니다. 기존의 금융 벤치마크(benchmarks)는 주로 고립된 하위 기술(subskills)이나 최종 답변만을 평가하며, 감사 가능한 도출 과정 자체는 충분히 측정하지 못하고 있습니다. 우리는 전문가가 작성한 928개의 개방형 금융 연구 과제로 구성된 벤치마크인 BigFinanceBench를 소개합니다. 각 항목은 정답 참조 답변(ground-truth reference answer)과 도출 과정을 독립적으로 확인 가능한 단계로 분해한 점수 가중 루브릭(point-weighted rubric)이 쌍을 이룹니다. BigFinanceBench는 최종 출력물뿐만 아니라 전체 도출 과정을 평가한다는 점에서 워크플로우 기반(workflow-grounded)입니다. 36,241개의 루브릭 포인트를 통해, 이 벤치마크는 부분 점수 평가와 분석가 워크플로우 전반에 걸친 실패 지점의 국소화(localization)를 지원합니다. 현재의 10개 최첨단(frontier) 및 오픈 웨이트(open-weight) 에이전트들을 평가한 결과, 상당한 개선 여지가 있음을 발견했습니다. 가장 우수한 시스템도 루브릭 점수에서 58.8%에 그쳤으며, 최종 답변 정확도는 도출 품질을 나타내는 유용하지만 손실이 있는 대리 지표(lossy proxy)였고, 모델의 능력은 금융 워크플로우 전반에 걸쳐 불균일하게 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

BigFinanceBench: 금융 연구 에이전트를 위한 워크플로우 기반 벤치마크

요약

핵심 포인트

댓글