BigFinanceBench: 금융 연구 에이전트를 위한 워크플로우 기반 벤치마크
요약
금융 연구 에이전트의 도출 과정을 정밀하게 평가하기 위한 워크플로우 기반 벤치마크인 BigFinanceBench를 소개합니다. 기존 벤치마크와 달리 최종 답변뿐만 아니라 단계별 추론 과정과 근거를 검증할 수 있는 루브릭을 제공합니다.
핵심 포인트
- 928개의 전문가 작성 금융 연구 과제 포함
- 단계별 검증이 가능한 점수 가중 루브릭 적용
- 최종 답변 정확도 외에 도출 과정의 품질 측정 가능
- 현존하는 최첨단 에이전트들의 금융 워크플로우 능력 한계 확인
금융 연구 답변은 다른 분석가가 해당 답변이 어떻게 생성되었는지 감사할 수 있을 때에만 의사결정에 유의미합니다. 즉, 어떤 출처가 선택되었는지, 어떤 기간과 회계 정의가 사용되었는지, 어떤 가정이 세워졌는지, 그리고 계산이 어떻게 수행되었는지를 알 수 있어야 합니다. 기존의 금융 벤치마크(benchmarks)는 주로 고립된 하위 기술(subskills)이나 최종 답변만을 평가하며, 감사 가능한 도출 과정 자체는 충분히 측정하지 못하고 있습니다. 우리는 전문가가 작성한 928개의 개방형 금융 연구 과제로 구성된 벤치마크인 BigFinanceBench를 소개합니다. 각 항목은 정답 참조 답변(ground-truth reference answer)과 도출 과정을 독립적으로 확인 가능한 단계로 분해한 점수 가중 루브릭(point-weighted rubric)이 쌍을 이룹니다. BigFinanceBench는 최종 출력물뿐만 아니라 전체 도출 과정을 평가한다는 점에서 워크플로우 기반(workflow-grounded)입니다. 36,241개의 루브릭 포인트를 통해, 이 벤치마크는 부분 점수 평가와 분석가 워크플로우 전반에 걸친 실패 지점의 국소화(localization)를 지원합니다. 현재의 10개 최첨단(frontier) 및 오픈 웨이트(open-weight) 에이전트들을 평가한 결과, 상당한 개선 여지가 있음을 발견했습니다. 가장 우수한 시스템도 루브릭 점수에서 58.8%에 그쳤으며, 최종 답변 정확도는 도출 품질을 나타내는 유용하지만 손실이 있는 대리 지표(lossy proxy)였고, 모델의 능력은 금융 워크플로우 전반에 걸쳐 불균일하게 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기