
「50% 패스율」이 최강의 학습 지점——Prefix Sampling으로 RL 학습을 2배 가속화
요약
바이너리 보상 RL 학습 시 패스율이 0% 또는 100%로 치우치면 학습 효율이 급감하는 문제를 해결하기 위한 연구입니다. Prefix Sampling 기법을 통해 패스율을 최적점인 0.5로 유도하여 학습 수렴 속도를 2배 가속화하고 성능을 개선했습니다.
핵심 포인트
- 패스율 p=0.5가 보상 엔트로피와 어드밴티지 에너지를 최대화하는 최적점임
- Prefix Sampling을 통해 치우친 롤아웃의 정보 밀도를 강제로 높임
- Qwen3-14B 기준 SWE-bench 성능 향상 및 수렴 속도 2.01배 가속화
- GRPO 학습 시 발생하는 무의미한 계산 비용을 획기적으로 절감
「50% 패스율」이 최강의 학습 지점——Prefix Sampling으로 RL 학습을 2배 가속화
논문: Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime
저자: Tianshu Zhu, Wenyu Zhang, Xiaoying Zuo, Lun Tian, Haotian Zhao, Yucheng Zeng 외
arXiv: 2605.05112 (2026-05-06)
TL;DR
문제: 바이너리 보상 RL (Binary-Reward RL, GRPO 계열)에서는 롤아웃(Rollout) 그룹의 패스율(Pass-rate)이 0% 또는 100%로 치우치면 학습 시그널이 거의 제로가 된다——이 "무의미한 롤아웃"이 계산 비용의 대부분을 차지한다. -
발견: 패스율 p = 0.5가 "보상 엔트로피(Reward Entropy)·GRPO 우위 에너지(GRPO Advantage Energy)·성공/실패 대비(Success/Failure Contrast)"의 3가지 지표를 동시에 최대화하는 정보 이론적 최적점임을 증명. -
방법: Prefix Sampling (PS)— 치우친 그룹에 대해 "성공 프리픽스(Success Prefix)를 앞부분에 재생(어려운 그룹용)"하거나 "실패 프리픽스(Failure Prefix)를 핸디캡으로 재생(쉬운 그룹용)"하여 p≈0.5로 유도한다. -
결과: Qwen3-14B의 SWE-bench Verified에서 SWE-bench Peak 0.273 → 0.295로 상승, 수렴 속도를 2.01배 가속화. AIME 2025에서도 동일 스텝 대비 +7.3~10.8pp 개선.
배경: GRPO의 숨겨진 낭비
강화학습(Reinforcement Learning, RL)과 GRPO (Group Relative Policy Optimization)는 LLM 추론 훈련의 표준 레시피가 되어가고 있다. SWE-bench와 같은 소프트웨어 엔지니어링 태스크나 AIME 수학 문제에 대한 적용이 급증하고 있다.
그룹 필터링과 그 한계
GRPO는 1개 태스크당 N개(통상 8개)의 롤아웃을 샘플링하고, 그룹 내의 상대적인 보상 차이로부터 어드밴티지(Advantage)를 계산한다. 구현 시 "전체 성공(8/8) 또는 전체 실패(0/8) 그룹"은 보상 대비가 제로이므로 학습에서 제외한다 (그룹 필터링).
하지만 필터링을 통과하더라도, 1/8이나 7/8과 같이 치우친 그룹이 대량으로 남는다. 이론적으로 이러한 그룹으로부터 얻는 학습 시그널은 거의 무의미에 가깝다.
본 논문은 이 "정보 밀도가 낮은 롤아웃"에 소비되는 계산 비용을 "패스율 제어 문제"로 정식화하고, 원리적인 해결책을 제안한다.
왜 p = 0.5가 최적인가
논문의 핵심 질문: "어떤 패스율에서 가장 강력한 학습 시그널을 얻을 수 있는가?"
다음 4가지 지표 모두가 p = 0.5에서 최대화됨을 증명한다.
/images/prefix-sampling-prc/fig2.png
지표 1: 보상 엔트로피 H(p)
바이너리 보상의 엔트로피는 베르누이 엔트로피(Bernoulli Entropy)이다:
이는 p = 0.5에서 최대값 1.0 bit/rollout을 갖는다. p = 1/8인 그룹은 약 0.54 bit——즉 정보량이 절반 이하가 된다.
지표 2: GRPO 어드밴티지 에너지 ∝ p(1-p)
GRPO/RLOO의 어드밴티지는 보상의 분산에 비례한다. N=8인 롤아웃에서 k개가 성공했을 때의 분산은:
k=4 (p=0.5)에서 최대값 0.25, k=1 (p=0.125)에서는 0.109——2.3배의 차이가 있다.
지표 3: 성공/실패 대비 쌍의 수 k×(N-k)
N=8인 그룹에서 k개가 성공했을 때의 "성공·실패 쌍의 수"는 k×(8-k)이다. k=4일 때 최대 16쌍, k=1일 때는 7쌍에 그친다.
지표 4: 그룹 필터링 생존 확률
치우친 패스율을 가진 그룹은 많은 롤아웃이 "필터 제외"될 확률이 높아, 계산을 낭비하게 된다.
방법론: Prefix Sampling (PS)
/images/prefix-sampling-prc/fig3.png
Prefix Sampling의 핵심: 치우친 그룹을 재사용하여 p≈0.5를 향하도록 유도한다.
양방향 프리픽스 재생
그룹의 패스율에 따라 4개의 버킷(Bucket)을 정의한다:
| 버킷 | 패스율 | 액션 |
|---|---|---|
| Hard (1/8) | p = 0.125 | 성공 프리픽스(Prefix)로 시작 (어려운 문제의 선행 부분을 재생 $\rightarrow$ 후속 부분만 현재 정책으로 생성) |
| Hard (2/8) | p = 0.25 | 성공 프리픽스로 보조 |
| Easy (6/8) | p = 0.75 | 실패 프리픽스로 핸디캡 (잘못된 출발점에서 재생 $\rightarrow$ 수정 과정을 학습) |
| Easy (7/8) | p = 0.875 | 실패 프리픽스로 보조 |
프리픽스 마스킹 (Prefix Masking, 정책 일관성 보장)
중요한 제약 사항: 재생된 프리픽스 부분의 토큰은 손실 계산(Loss Calculation)에서 제외한다. 현재 정책이 생성한 "계속되는 부분"만으로 그래디언트(Gradient)를 계산하기 때문에, 오프-폴리시 오염(Off-policy contamination)이 발생하지 않는다.
SWE-bench와 같은 상태 유지(Stateful) 환경에서는 에이전트 상태도 프리픽스로부터 재현(Replay-through-execution)한다. 이를 통해 환경을 처음부터 다시 실행하는 오버헤드를 대폭 절약할 수 있다.
적응형 컨트롤러 (Adaptive Controller, EMA 피드백)
훈련 중에 모델의 능력이 변화하기 때문에, 고정된 비율의 프리픽스는 구식이 된다. PS는 각 버킷의 재-롤아웃(Re-rollout) 패스율의 지수 이동 평균(EMA)을 사용한다.
실측치: 재-롤아웃 후의 패스율은 각 버킷에서 성공적으로 p=0.5 근처로 수렴했다 (1/8 버킷: 0.485, 2/8: 0.489, 6/8: 0.504, 7/8: 0.515).
실험 결과
/images/prefix-sampling-prc/fig1.png
실험 설정
- Agentic 태스크: Qwen3-14B & Qwen3-32B (Thinking 모드)를 R2E-Gym-Subset으로 훈련 $\rightarrow$ SWE-bench Verified로 평가
- 수학 추론: Qwen3-4B & Qwen3-8B (비-Thinking 모드)를 AceReason-Math-Subset으로 훈련 $\rightarrow$ AIME 2025로 평가
- N = 8 롤아웃/태스크, clip-high GRPO++ 베이스라인 공통 설정
메인 결과 (Table 1 상당)
| 모델 | 태스크 | BL 피크 | PS 피크 | 동일 스텝 개선 | 수렴 가속 |
|---|---|---|---|---|---|
| Qwen3-14B | SWE-bench | 0.273 | 0.295 (+4.7pp) | Step 300 $\rightarrow$ 170 | 2.01$\times$ E2E |
| Qwen3-32B | SWE-bench | BL 상당 | BL+$\alpha$ | Step 395 $\rightarrow$ 282 | 1.55$\times$ E2E |
| Qwen3-4B | AIME 2025 | — | — | +7.3pp, Step 230 $\rightarrow$ 140 | |
| Qwen3-8B | AIME 2025 | — | — | +10.8pp, Step 260 $\rightarrow$ 190 |
엔드-투-엔드(End-to-end) 가속화(2.01$\times$)는 두 가지 독립적인 효과의 곱이다:
- 학습 시그널 밀도 향상에 따른 수렴 스텝 감소 (1.76$\times$)
- Replay-through-execution에 따른 스텝 시간 감소 (1.14$\times$ = 1597s $\rightarrow$ 1405s)
어블레이션 분석 (Ablation Analysis)
/images/prefix-sampling-prc/fig4.png
| 변종 | 수렴 스텝 | 가속화 | 설명 |
|---|---|---|---|
| Baseline | 211 | 1.00$\times$ | GRPO++만 사용 |
| PS-fix | 131 | 1.61$\times$ | 재생 포함 · 고정 비율 |
| PS-ada Hard-only | 186 | 1.13$\times$ | 적응형 적용 · 어려운 쪽만 |
| PS-ada (Full) | 110 | 1.92$\times$ | 양방향 + 적응형 |
분해 분석:
- "재생(Replay)" 단독이 가장 큰 효과: 1.61$\times$의 가속화를 단독으로 가져옴
- "적응형 제어(Adaptive Control)" 추가로 더욱 안정적인 개선 (1.61$\times$ $\rightarrow$ 1.92$\times$)
- "양방향(어려운 쪽과 쉬운 쪽 모두)"이 갖춰져야 비로소 최대 효과 발휘 — 한쪽만으로는 1.13$\times$에 그침
고찰
"힌트 방식"과의 결정적인 차이
기존의 유사한 접근 방식(힌트 기반 기법, 오라클(Oracle) 정답 주입)과의 본질적인 차이는 온-폴리시(On-policy) 성의 유지에 있다. PS는 반드시 현재 정책이 생성한 "계속되는 부분"만을 학습 대상으로 삼기 때문에:
- 보상 모델 (Reward Model)의 혼란을 야기하지 않음
- 분포 외 (OOD, Out-of-Distribution) 데이터로 인한 붕괴 리스크가 없음
- 기존 GRPO 레시피에 드롭인 (Drop-in) 추가 가능 (프롬프트 및 보상 설계 변경 불필요)
양방향성의 중요성
흥미로운 점은 "어려운 그룹뿐만 아니라 쉬운 그룹에도 개입한다"는 설계 사상이다. "너무 쉬운 그룹"은 성공적인 프리픽스 (Prefix)가 많기 때문에, 정책 (Policy)이 "실패로부터 복구하는 능력"을 배울 기회를 잃는다. 실패 프리픽스의 주입은 이러한 사각지대를 메워준다.
실측에서도 "Hard-only" (1.13배)와 "Full (양방향)" (1.92배)의 차이가 컸으며, 쉬운 그룹에 대한 개입이 무시할 수 없는 기여를 하고 있음을 확인했다.
스코프와 한계
저자는 논문에서 적용 범위를 명확히 한정하고 있다:
- 이진 보상 (Binary Reward) (0/1)을 가진 그룹화 롤아웃 (Grouped Rollout) 설정 - 주요 검증은 N=8 롤아웃
- 14B/32B의 에이전틱 (Agentic) 테스트는 사내 샌드박스에 의존 (미공개)
- 수학 4B/8B 설정은 완전 공개 및 재현 가능
연속 보상 (Continuous Reward), OWM (Oracle-Weighted Method), 비그룹화 RL 설정으로의 적용 가능성은 향후 과제로 남겨두었다.
관련 연구와의 위치 선정
본 논문이 정리하는 "패스율 (Pass Rate)에 영향을 미치는 기존 기법"은 3가지 카테고리로 분류된다:
- 분포를 바꾸어 암묵적으로 편향을 완화 — DAPO (clip-high), FlowRL (난이도 기반 샘플링)
- 가이던스로 암묵적으로 패스율을 변형 — 힌트 주입, CoT 주입
- 본 논문: 정보 밀도가 높은 제도를 명시적으로 타겟팅 (최초의 시도)
세 번째 접근 방식은 "왜 효과가 있는가"라는 이론적 근거를 가지고 있으며, 범용적인 드롭인 (Drop-in) 기법으로 기능한다는 점에서 선행 연구와 궤를 달리한다.
요약
"RL의 학습 효율을 높이고 싶다면, 너무 어려운 태스크도 너무 쉬운 태스크도 사용할 수 없다 —— 성공률 50%가 가장 대비(Contrast)가 풍부하다". 이 당연하게 들리는 통찰이 놀라울 정도로 체계적으로 정립되어 있지 않았다.
본 논문은 그 최적성을 4가지 지표를 통해 수학적으로 증명하였고, 이를 Prefix Sampling이라는 매우 심플한 구현(성공 프리픽스로 시작을 알리고, 실패 프리픽스로 핸디캡을 부여함)으로 구체화했다.
베이스라인 대비 2.01배의 가속화는 프롬프트 설계, 보상 설계, 모델 변경 없이 실현 가능하다. SWE-bench Verified라는 실용적인 고난도 태스크에서의 실증은 에이전트 RL 실무자들에게 특히 강력한 결과로 다가갈 것이다.
"어떤 태스크를 학습시킬 것인가"보다 "어떤 태스크 그룹의 패스율이 최적인가"를 제어하는 것 —— 그 전환이 다음 RL 훈련 효율화의 주전장이 될지도 모른다.
참고
- 논문: arXiv:2605.05112
- DeepSWE GRPO++ recipe: [선행 논문 참조]
- SWE-bench Verified: GitHub
- R2E-Gym: Agentic RL용 코드 리포지토리 환경
- AceReason-Math: Qwen 계열 수학 RL 훈련 데이터셋
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기