arXiv논문2026. 06. 09. 11:51

Reasoning Arena: 검증 가능한 보상이 부족할 때의 추론 토너먼트 (Trace Tournaments)

요약

검증 가능한 보상이 동일하여 학습 신호가 부족한 문제를 해결하기 위해 Reasoning Arena 프레임워크를 제안합니다. 판사 시스템을 통해 추론 과정 간의 세밀한 선호도를 비교하는 '추론 토너먼트'를 구성하여 효율적인 강화학습을 가능하게 합니다.

핵심 포인트

비다양성 보상 그룹 문제를 해결하는 적응형 학습 프레임워크 제안
추론 과정 간 일대일 비교를 통해 세밀한 상대적 보상 신호 생성
Bradley-Terry 모델을 활용하여 확장 가능한 강화학습 통합 구현
수학 및 코딩 벤치마크에서 RLVR 대비 성능 7.6% 향상
학습 속도 최대 41% 가속 및 생성 연산량 약 50% 절감

검증 가능한 보상을 이용한 강화학습 (RLVR, Reinforcement learning with verifiable rewards)은 결과 기반 감독 (outcome-based supervision)을 통해 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 주요 패러다임이 되었습니다. 그러나 검증 가능한 보상은 그룹 수준에서 정보가 없는 상태가 되는 경우가 빈번합니다. 즉, 특정 프롬프트에 대해 샘플링된 모든 추론 과정 (traces)이 동일한 보상을 받을 때, 추론의 질이 실질적으로 다를 수 있음에도 불구하고 그룹 상대적 이점 추정 (group-relative advantage estimation)은 어떠한 그래디언트 신호 (gradient signal)도 제공하지 못합니다. 우리는 이러한 비다양성 보상 그룹을 폐기하는 대신 판사 시스템 (judge system)으로 라우팅하는 적응형 학습 프레임워크인 Reasoning Arena를 제안합니다. Reasoning Arena는 최종 답변을 검토하는 것을 넘어, 추론 과정들을 일대일로 비교하여 그룹 내의 더 세밀한 선호도를 드러내는 추론 토너먼트 (trace tournaments)를 구성하며, 이를 통해 추론의 질을 풍부한 상대적 보상 신호로 변환합니다. 보상 추정을 효율적으로 만들기 위해, 모든 쌍을 전수 조사하여 비교하는 대신, 각 새로운 추론 과정은 이전에 생성된 추론 과정들로 구성된 작고 동적으로 업데이트되는 풀 (pool)을 앵커 (anchors)로 삼아 비교함으로써 효율적으로 상대적 순위를 설정합니다. 그런 다음 불완전한 비교 그래프 (incomplete comparison graph)에 Bradley-Terry 모델을 적합시켜, 이차적인 쌍별 비교 (quadratic pairwise comparisons) 없이도 확장 가능한 강화학습 (RL) 통합을 가능하게 합니다. 실험 결과, Reasoning Arena는 경시대회 수학 및 코딩 벤치마크에서 RLVR 베이스라인보다 평균 7.6% 더 높은 성능을 일관되게 보여주었습니다. 이 방법은 이점(advantage)이 없는 상태로 낭비될 뻔한 샘플들을 유용한 그래디언트 업데이트로 변환함으로써, 학습 속도를 27%에서 41%까지 가속화하고 생성 연산량 (generation compute)을 거의 50% 절감하며, 전반적인 추론 성능을 실질적으로 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

Reasoning Arena: 검증 가능한 보상이 부족할 때의 추론 토너먼트 (Trace Tournaments)

요약

핵심 포인트

댓글