arXiv논문2026. 05. 26. 12:49

StakeBench: 시장 참여 의지(Market Commitment)에 기반한 언어 이해 평가

요약

StakeBench는 시장 참여 의지(market commitment)를 기반으로 언어 이해를 평가하는 새로운 프레임워크입니다. Polymarket 등의 실제 거래 데이터와 코멘트를 연결하여 모델이 단순 감성이 아닌 실제 시장 행동을 얼마나 정확히 파악하는지 측정합니다.

핵심 포인트

시장 행동 데이터를 활용한 새로운 금융 NLP 벤치마크 제안
인간 주석 대신 실제 포지션과 거래 기록을 감독 신호로 사용
LLM들이 시장 참여 의지 및 미래 행동 예측에서 구조적 한계를 보임
모델 규모나 금융 도메인 튜닝이 성능 향상에 직접적인 영향을 주지 않음

기존의 금융 자연어 처리 (NLP) 벤치마크는 종종 외부 관찰자가 제공하는 라벨에 의존하며, 이는 화자가 시장에서 무엇을 약속(commit)했는지보다는 언어가 어떻게 인식되는지를 측정합니다. 우리는 시장 참여 의지 (market commitment)에 기반한 언어 이해를 위한 평가 프레임워크인 StakeBench를 소개합니다. StakeBench는 2,261개의 해결된 시장에서 추출한 560,876개의 코멘트를 Polymarket 및 Manifold 전반에 걸친 검증된 포지션 (position), 행동 (action), 시장 배당률 (market-odds) 기록과 연결합니다. 감독 (Supervision)은 관찰 가능한 시장 행동으로부터 도출됩니다. 포지션 방향 (Position sides), 코멘트 작성 후의 거래 행동 (post-comment trading actions), 그리고 시장 배당률 궤적 (market-odds trajectories)이 인간의 주석 (human annotation)을 대체합니다. 네 가지 진단 작업 (diagnostic tasks)을 통해 모델이 시장 참여 의지를 감지하는지, 드러난 방향 (revealed side)을 식별하는지, 미래 행동을 예측하는지, 그리고 집단적 배당률 투영 (collective odds projection)을 수행할 수 있는지를 테스트합니다. 세 가지 참여 의식 지표 (commitment-aware metrics)는 인지된 감성 (perceived sentiment)보다는 드러난 선호도 (revealed preferences)와의 일치성을 측정합니다. 타당성 감사 (Validity audits)와 명시적인 해석 경계 (explicit interpretation boundaries)는 관찰 가능한 참여 신호와 잠재적 신념 (latent belief) 및 인과적 시장 배당률 영향 (causal market-odds impact)을 구분하는 데 도움을 줍니다. 15개의 대규모 언어 모델 (LLMs)과 18개의 주제 및 플랫폼 설정에 걸쳐 테스트한 결과, 모델들은 포지션 방향 신호를 부분적으로 회복하며 방향 정확도 (Directed Accuracy) 0.506에서 0.599 사이를 기록했으나, 후속 작업들에서는 구조적 실패를 보였습니다. 15개 모델 중 10개는 미래 행동 예측 시 한두 개의 행동 라벨로 붕괴되었으며, 집단적 배당률 투영에서 단순 배당률 방향 (naive odds-direction) 베이스라인을 일관되게 능가하는 모델은 없었습니다. 모델의 규모는 성능과 상관관계가 없었으며, 금융 도메인 튜닝 (finance-domain tuning)은 드러난 방향 식별을 개선하지 못했고, 플랫폼 인센티브가 고차원적인 결과에 강력한 영향을 미쳤습니다. StakeBench는 평가 코드 및 데이터셋과 함께 CC-BY 4.0 라이선스로 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

StakeBench: 시장 참여 의지(Market Commitment)에 기반한 언어 이해 평가

요약

핵심 포인트

댓글