본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

RLVR을 위한 효율적인 전략 가이드 탐색 기법: NudgeRL 프레임워크

요약

RLVR(검증 가능한 보상을 활용한 강화학습)의 탐색 효율성 문제를 해결하기 위해 구조화된 탐색 프레임워크인 NudgeRL을 제안합니다. NudgeRL은 전략 너징(Strategy Nudging)을 통해 다양한 추론 궤적을 유도하며, 보상 신호 분해와 증류 목적 함수를 결합하여 계산 비용을 낮추면서도 높은 성능을 달성합니다.

핵심 포인트

  • RLVR의 핵심 한계인 탐색(Exploration) 문제를 해결하기 위해 전략 수준의 컨텍스트를 활용한 NudgeRL 프레임워크 제안
  • 전략 너징(Strategy Nudging)을 통해 오라클 감독 없이도 다양성 중심의 추론 궤적 유도 가능
  • 보상 신호를 컨텍스트 간(Inter-context) 및 컨텍스트 내(Intra-context) 요소로 분해하여 학습 효율 극대화
  • 표준 GRPO 대비 최대 8배 적은 예산으로도 더 뛰어난 성능을 보이며 수학 벤치마크에서 우수한 결과 입증

검증 가능한 보상을 활용한 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)은 대규모 언어 모델 (LLM)의 추론 능력을 향상시키기 위한 확장 가능한 패러다임으로 부상했습니다. 그러나 RLVR의 효과는 탐색 (Exploration)에 의해 근본적으로 제한됩니다. 즉, 정책 (Policy)은 이미 샘플링된 궤적 (Trajectories) 내에서만 개선될 수 있습니다. 롤아웃 (Rollout) 횟수를 늘리면 이 문제를 완화할 수 있지만, 이러한 무차별적인 스케일링 (Brute-force scaling)은 계산 비용이 많이 들며, 최적화 목적 함수 (Optimization objective)를 수정하는 기존 방식들은 무엇을 탐색할지에 대해 제한적인 제어만을 제공합니다.

본 연구에서는 RLVR에서 구조화되고 다양성 중심적인 탐색을 위한 프레임워크인 NudgeRL을 제안합니다. 우리의 접근 방식은 전략 너징 (Strategy Nudging)을 도입하며, 이는 값비싼 오라클 감독 (Oracle supervision)에 의존하지 않고도 다양한 추론 궤적을 유도하기 위해 각 롤아웃을 가벼운 전략 수준의 컨텍스트 (Context)에 조건화합니다. 이러한 구조화된 탐색으로부터 효과적으로 학습하기 위해, 우리는 보상 신호 (Reward signal)를 컨텍스트 간 (Inter-context) 및 컨텍스트 내 (Intra-context) 구성 요소로 분해하고, 발견된 행동을 기본 정책 (Base policy)으로 전달하기 위한 증류 목적 함수 (Distillation objective)를 통합하는 통합 목적 함수를 추가로 제안합니다.

실험적으로 NudgeRL은 최대 8배 더 큰 롤아웃 예산을 사용하는 표준 GRPO보다 뛰어난 성능을 보였으며, 5개의 까다로운 수학 벤치마크 전반에서 오라클 가이드 RL (Oracle-guided RL) 베이스라인을 평균적으로 상회했습니다. 이러한 결과는 구조화된 컨텍스트 기반 탐색이 무차별적인 롤아웃 스케일링과 특권 정보 (Privileged information)에 기반한 실행 가능성 중심 방법론 모두에 대한 효율적이고 확장 가능한 대안이 될 수 있음을 입증합니다. 우리의 코드는 https://github.com/tally0818/NudgeRL 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0