더 넓은 그물 던지기: 코드 추론을 위한 협력적 Pass@K 정책 최적화
요약
코드 생성 시 중복된 추론 경로를 방지하기 위해 협력적 Pass@K 정책 최적화(CPPO)를 제안합니다. 플래너가 다양한 알고리즘 전략을 생성하고 솔버가 이를 실행하여, 제한된 예산 내에서 코드 추론 성능을 극대화합니다.
핵심 포인트
- 기존 Pass@K의 중복 샘플링 문제를 해결하는 CPPO 제안
- 플래너와 솔버의 공동 탐색을 통한 전략적 샘플링 구현
- APPS, CodeContests 등 주요 벤치마크에서 성능 향상 입증
- Qwen3.5-9B 모델에서 기존 베이스라인 대비 유의미한 성능 개선
검증기 (verifier)를 활용한 반복적인 샘플링은 코드 생성 (code generation)을 위해 테스트 시간 연산 (test-time compute)을 할당하는 표준적인 방법이며, pass@$K$가 표준적인 지표로 사용됩니다. 그러나 표준적인 정책 클래스는 단일 정답 분포에서 $K$개의 독립적인 샘플을 추출하기 때문에, 시도는 종종 거의 중복되는 추론 경로로 수렴하여 중복된 롤아웃 (rollouts)에 예산을 낭비하게 됩니다. 이러한 실패는 많은 문제들이 여러 개의 서로 다른 알고리즘 전략을 허용하고 pass@$K$가 단 하나의 올바른 시도만을 요구하는 경쟁 프로그래밍 (competitive programming)에서 비용이 많이 듭니다. 우리는 pass@$K$ 생성을 전략에 대한 공동 탐색 (joint exploration)으로 전환하는 협력적 Pass@$K$ 정책 최적화 (Coordinated Pass@$K$ Policy Optimization, CPPO)를 제안합니다. 즉, 플래너 (planner)가 $K{=}4$개의 대안적인 상위 수준 방법 (high-level methods) 튜플을 방출하면, 공유된 솔버 (solver)가 각 방법당 하나의 솔루션을 시도합니다. CPPO는 곱셈적 플래너 보상 (multiplicative planner reward)인 $R_{\mathrm{plan}} = J_ψ\cdot R_{\mathrm{out}}$을 사용하여 이 공동 정책을 학습하며, 검증기에 의해 확인된 pass@$K$ 성공으로 이어지는 유효한 전략 튜플에만 크레딧 (credit)을 할당합니다. APPS, CodeContests, LiveCodeBench-v6 전반에 걸쳐, CPPO는 동일한 $K{=}4$ 솔버 시도 예산 하에서 직접 샘플링 (direct sampling), 플래닝 베이스라인 (planning baselines), 플래너 전용 SFT (planner-only SFT), 그리고 pass@$K$ 지향 RL (pass@$K$-oriented RL)보다 pass@$4$ 성능을 향상시켰으며, 9개의 모델-벤치마크 셀 중 6개에서 통계적으로 유의미한 이득을 보였습니다. 가장 큰 단일 이득은 가장 강력한 베이스라인인 PKPO 대비 Qwen3.5-9B LiveCodeBench-v6에서 $+0.16$을 기록했습니다 ($0.588 \rightarrow 0.748$; paired bootstrap, $p < 0.05$).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기