arXiv논문2026. 06. 08. 10:33

정확성에서 유용성으로: LLM 추론을 위한 이득 기반 접두사 평가 (Gain-Based Prefix Evaluation)

요약

기존의 단계별 정확성 중심 평가에서 벗어나, 추론 접두사가 최종 문제 해결 확률을 얼마나 높이는지 측정하는 '접두사 이득(prefix gain)' 개념을 제안합니다. 이를 통해 학습된 PUM 모델은 수학적 추론 및 강화학습 과정에서 강력한 감독 신호를 제공합니다.

핵심 포인트

정확성 대신 최종 해결률 향상을 측정하는 접두사 이득 정의
결과 기반의 유용성을 학습하는 Prefix Utility Model(PUM) 제안
Best-of-N, 빔 서치, 강화학습 등 다양한 추론 환경에서 성능 입증
희소한 보상 환경에서도 효과적인 접두사 수준 감독 신호 제공

추론 접두사 (Reasoning prefixes)는 LLM 문제 해결의 미래 궤적을 결정하지만, 기존의 프로세스 보상 모델 (Process Reward Models)은 대개 국소적인 단계의 정확성 (local step correctness)을 통해 이를 평가합니다. 우리는 정확성이 우리가 궁극적으로 관심을 갖는 효과, 즉 접두사가 성공적인 완료 확률을 높이는지에 대한 유용하지만 간접적인 대리 지표 (proxy)라고 주장합니다. 우리는 이 효과를 접두사 이득 (prefix gain)으로 정의하며, 이는 경량화된 학생 모델 (student model) 그룹을 특정 접두사에 조건화했을 때 유도되는 해결률 (solve-rate)의 향상을 의미합니다. 우리는 이를 사용하여 단순한 쌍체 순위 목표 (pairwise ranking objective)를 가진 접두사 유용성 모델 (Prefix Utility Model, PUM)을 학습시킵니다. PUM은 결과에 기반한 (outcome-grounded) 접두사 유용성을 학습하며, 전체 궤적 (complete trajectories)과 부분적인 추론 접두사 (partial reasoning prefixes)를 모두 점수화할 수 있습니다. 수학적 추론에서의 Best-of-$N$ 선택, 빔 서치 (beam search), 그리고 강화학습 (reinforcement learning) 전반에 걸쳐, PUM은 특히 후보 풀 (candidate pools)이 크거나, 탐색 예산 (search budgets)이 증가하거나, 규칙 기반 보상 (rule-based rewards)이 희소할 때 강력한 접두사 수준의 감독 신호 (supervision signal)를 제공합니다. 우리는 모든 데이터, 모델, 코드를 https://zhiqix.github.io/pum-project-page 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

정확성에서 유용성으로: LLM 추론을 위한 이득 기반 접두사 평가 (Gain-Based Prefix Evaluation)

요약

핵심 포인트

댓글