본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:31

Hedge-Bench: 금융 추론과 관련된 어렵고 현실적인 과제에 대한 에이전트 벤치마킹

요약

금융 분석가의 개방형 추론 능력을 평가하기 위한 새로운 벤치마크인 Hedge-Bench 1.0을 소개합니다. 실제 헤지펀드 분석가의 추론 과정을 기반으로 설계되어 기존 벤치마크의 한계를 극복하며, 최신 모델들도 매우 낮은 성능을 보였습니다.

핵심 포인트

  • 전문 헤지펀드 분석가의 실제 추론 흔적 기반 데이터셋
  • 기존 벤치마크의 노이즈와 순환성 문제 해결
  • 결정론적 채점 방식 도입으로 평가 신뢰도 향상
  • 최첨단 모델 및 에이전트의 낮은 성능 확인 (16% 미만)

AI 에이전트(AI agents)는 문서 검색, 공식 계산, 스프레드시트 업데이트와 같은 금융 분석의 기계적인 작업들을 점점 더 잘 처리할 수 있게 되었습니다. 더 어렵고 가치 있는 도전 과제는 전문 분석가(Analyst)의 업무를 정의하는 개방형 질문(open-ended questions)을 통해 추론하는 것입니다. 기존의 벤치마크(benchmarks)는 이러한 유형의 문제를 포착하지 못하며, 개방형 추론을 평가하려는 시도들은 노이즈와 순환성(circularity)을 유발하는 모델 판정 출력(model-judged outputs)에 의존합니다. 우리는 Hedge-Bench 1.0을 제시합니다. 이는 관련 정보원을 활용하여 작업하는 전문 헤지펀드 분석가(hedge fund analysts)들의 명시적인 추론 흔적(reasoning traces)에 기반한 102개의 실제 업무 과제로 구성된 벤치마크입니다. 이 접근 방식은 검증된 전문가의 단계에 따라 결정론적 채점(deterministic grading)을 가능하게 합니다. 최첨단 모델(Frontier models)과 에이전트들은 이 벤치마크에서 16% 미만의 점수를 기록했습니다. 우리는 데이터셋과 평가 하네스(evaluation harness)를 github.com/Trata-Inc/trata-hedge-bench에 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0