arXiv논문2026. 06. 25. 12:03

InvestPhilBench: 전문가 투자 철학 내 대규모 언어 모델의 절차적 추론 평가를 위한 다층적 동적 벤치마크

요약

LLM이 전문가의 투자 의사결정 프레임워크를 얼마나 정확히 재구성하는지 평가하는 다층적 동적 벤치마크인 InvestPhilBench를 소개합니다. 8단계 인지 계층과 자동 채점 파이프라인(BASP)을 통해 모델의 절차적 추론 능력을 정밀하게 측정합니다.

핵심 포인트

8단계 인지 계층을 통한 투자 철학 및 절차적 추론 평가 체계 구축
기존 점수가 문체에 치중되는 문제를 해결하기 위한 BASP 및 GRA 지표 도입
최첨단 모델에서도 특정 인지 계층(L7 등)에서 절차적 결함이 발견됨
자동 채점 점수와 인간 전문가의 판단 간 높은 상관관계(Pearson r 0.72) 입증

대규모 언어 모델(Large language models)이 투자 연구 보조 도구로 점점 더 많이 배치되고 있지만, 이들이 전문가 투자자의 특정 절차적 의사결정 프레임워크(procedural decision frameworks)를 정확하게 재구성하고 적용할 수 있는지 테스트하는 벤치마크는 아직 없습니다. 우리는 원칙 식별(L1)부터 새로운 프레임워크 외삽(L8)에 이르기까지 8개의 인지 계층을 아우르는 다층적 동적 벤치마크인 InvestPhilBench를 소개합니다. v0.6 릴리스는 1차 자료로 검증된 118개의 투자 원칙 카드, 명시적인 토폴로지 메타데이터(topology metadata)를 포함한 25개의 의사결정 프레임워크 카드, 그리고 243개의 QA 질문(개발용 197개 / 테스트용 46개)으로 구성됩니다. 대규모 환경에서 재현 가능한 점수 산출을 위해, 우리는 5가지 알고리즘 지표(OGRS, KCCS, SAP@k, IVP, CKCA)를 포함하는 벤치마크 자동 채점 파이프라인(Benchmark Automated Scoring Pipeline, BASP), 6가지 실패 모드에 대한 계산 가능한 규칙을 가진 실패 모드 탐지 프로토콜(Failure Mode Detection Protocol, FMDP), 그리고 정답 추론 프로그램(gold reasoning programs)이 있는 질문에 대한 게이트별 지표인 게이트 재구성 정확도(Gate Reconstruction Accuracy, GRA)를 도입합니다. 이번 릴리스에서 InvestPhilBench는 주로 벤치마크 및 방법론적 기여를 목적으로 합니다. 188개의 질문으로 구성된 개발 세트(development split)에 대해 4개 모델을 대상으로 실시한 건전성 테스트(sanity wave) 결과, 제공자 계층 간의 뚜렷한 격차(BASP 0.906 대 0.438)가 나타났으며, 이러한 혼합 판정(mixed-judge) 수치는 상한선(upper bounds)에 의해 혼란(confounded)될 수 있습니다. 핵심 발견 사항은 다음과 같습니다: BASP 복합 점수는 최첨단 모델(Claude L4 = 0.932)에서 포화 상태에 도달하는 반면, GRA는 여전히 절차적 결함(procedural deficit)을 드러냅니다(최첨단 모델의 L4 GRA는 약 0.77, L7 GRA는 0.57-0.62). 즉, 복합 점수는 유창한 문체에 보상을 주며 절차적 격차를 숨깁니다. v0.6은 통합된 판정자(unified judge)와 진정한 모델 인 더 루프(model-in-the-loop) 검색/오라클(oracle) 조건을 구현합니다. 혼란이 제거된(de-confounded) 다중 모델 리더보드와 완전한 3가지 조건 실행은 v1.0의 인도물입니다. 전문가가 주석을 단 100개 항목의 골드 세트(gold set)에서 자동화된 BASP 복합 점수는 피어슨 상관계수(Pearson r) 0.72(MAE = 0.10)로 인간 참조값과 일치하며, 속성(attribution, SAP@3)이 가장 취약한 하위 지표였고 실패 모드 탐지기는 민감하지만 과잉 플래깅(over-flagging)되는 특성을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

InvestPhilBench: 전문가 투자 철학 내 대규모 언어 모델의 절차적 추론 평가를 위한 다층적 동적 벤치마크

요약

핵심 포인트

댓글