arXiv논문2026. 06. 03. 11:31

Hedge-Bench: 금융 추론과 관련된 어렵고 현실적인 과제에 대한 에이전트 벤치마킹

요약

금융 분석가의 개방형 추론 능력을 평가하기 위한 새로운 벤치마크인 Hedge-Bench 1.0을 소개합니다. 실제 헤지펀드 분석가의 추론 과정을 기반으로 설계되어 기존 벤치마크의 한계를 극복하며, 최신 모델들도 매우 낮은 성능을 보였습니다.

핵심 포인트

전문 헤지펀드 분석가의 실제 추론 흔적 기반 데이터셋
기존 벤치마크의 노이즈와 순환성 문제 해결
결정론적 채점 방식 도입으로 평가 신뢰도 향상
최첨단 모델 및 에이전트의 낮은 성능 확인 (16% 미만)

AI 에이전트(AI agents)는 문서 검색, 공식 계산, 스프레드시트 업데이트와 같은 금융 분석의 기계적인 작업들을 점점 더 잘 처리할 수 있게 되었습니다. 더 어렵고 가치 있는 도전 과제는 전문 분석가(Analyst)의 업무를 정의하는 개방형 질문(open-ended questions)을 통해 추론하는 것입니다. 기존의 벤치마크(benchmarks)는 이러한 유형의 문제를 포착하지 못하며, 개방형 추론을 평가하려는 시도들은 노이즈와 순환성(circularity)을 유발하는 모델 판정 출력(model-judged outputs)에 의존합니다. 우리는 Hedge-Bench 1.0을 제시합니다. 이는 관련 정보원을 활용하여 작업하는 전문 헤지펀드 분석가(hedge fund analysts)들의 명시적인 추론 흔적(reasoning traces)에 기반한 102개의 실제 업무 과제로 구성된 벤치마크입니다. 이 접근 방식은 검증된 전문가의 단계에 따라 결정론적 채점(deterministic grading)을 가능하게 합니다. 최첨단 모델(Frontier models)과 에이전트들은 이 벤치마크에서 16% 미만의 점수를 기록했습니다. 우리는 데이터셋과 평가 하네스(evaluation harness)를 github.com/Trata-Inc/trata-hedge-bench에 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Hedge-Bench: 금융 추론과 관련된 어렵고 현실적인 과제에 대한 에이전트 벤치마킹

요약

핵심 포인트

댓글