본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:50

롤아웃 패스율 제어: 이진 보상 강화학습을 정보량이 가장 높은 영역으로 유도하는 방법

요약

본 논문은 SWE-bench 스타일의 에이전트 강화 학습에서 발생하는 컴퓨팅 비효율성 문제를 해결하기 위해 '패스율 제어' 문제로 접근합니다. 기존 방식은 편향된 롤아웃 그룹을 사용하며, 이는 정보량이 가장 높은 작동 지점(50% 패스율)으로 자원을 유도하는 것이 중요함을 밝힙니다. 이를 위해 Prefix Sampling (PS) 기법을 제안하는데, 이 방법은 성공한 트래젝토리의 시작 부분(prefix)을 재활용하여 실패 그룹에 '헤드 스타트'를 제공하고, 반대로 실패한 prefix를 성공 그룹에 '핸디캡'처럼 활용합니다. PS는 Qwen3 모델에서 상당한 속도 향상과 성능 유지/개선 효과를 입증했습니다.

핵심 포인트

  • SWE-bench 스타일 에이전트 RL은 컴퓨팅 자원 낭비가 심하며, 패스율 제어 관점에서 접근해야 한다.
  • 정보량이 가장 높은 작동 지점은 패스율 50%이며, 이는 보상 엔트로피와 구조적 대비를 최대화한다.
  • Prefix Sampling (PS) 기법을 통해 트래젝토리 프록시(prefix)를 재활용하여 학습 효율성을 극대화한다.
  • PS는 성공한 prefix로 실패 그룹에 헤드 스타트를 제공하고, 실패한 prefix로 성공 그룹에 핸디캡 역할을 수행한다.
  • Qwen3 모델에서 PS 적용 시 엔드 투 엔드 월 클록 속도가 1.5배~2배 향상되었으며, 최종 검증 성능도 개선되었다.

SWE-bench 스타일의 에이전트 강화 학습은 비용이 많이 드는 상태ful(상태가 유지되는) 트래젝토리를 필요로 하지만, 편향된 패스율 (pass rate) 을 가진 샘플링 롤아웃 그룹에서 상당한 컴퓨팅 자원이 낭비되고 있으며, 이진 보상이 약한 대비 신호를 제공합니다. 우리는 이러한 비효율성을 패스율 제어 문제 (pass-rate control problem) 로 정의하고, 50% 패스율이 가장 정보량이 많은 작동 지점임을 보여줍니다: 이는 보상 엔트로피 (reward entropy), 그룹 필터링 생존 확률, GRPO 하의 RLOO(Replay Loss Optimization Objective?) 장력 에너지, 그리고 성공-실패 대비 구조를 최대화합니다. 이 원칙에 따라 우리는 Prefix Sampling (PS) 을 제안하며, 이는 편향된 그룹을 이 영역으로 유도하기 위해 트래젝토리 프록시 (prefix) 를 재연산합니다: 성공한 프록시는 대부분 실패하는 그룹의 헤드 스타트 (head start) 역할을 하고, 실패한 프록시는 대부분 통과하는 그룹의 핸디캡 (handicap) 역할을 합니다. 상태ful 에이전트 환경에서 프록시 상태는 재생을 통해 재구성되며, 재생된 토큰은 손실 (loss) 에서 제외되어 현재 정책으로 생성된 계승 (continuation) 만 최적화에 제한됩니다. SWE-bench 스타일 에이전트 RL 에서는 PS 는 Qwen3-14B 에서 2.01 배, Qwen3-32B 에서 1.55 배의 엔드 투 엔드 월 클록 속도 향상 (wall-clock speedups) 을 제공하며 최종 검증 성능을 유지하거나 개선합니다. 14B 모델의 경우 SWE-bench Verified 피크는 PS 하에서 베이스라인 피크인 0.273 에서 0.295 로 상승했습니다. AIME 2025 의 추가적인 수학적 추론 실험은 동일한 패스율 제어 패턴을 보여주며, 이득 (gains) 을 재생, 양방향 커버리지, 적응형 제어 (adaptive control) 로 분해합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0