RLVR을 위한 효율적인 전략 가이드 탐색 기법: NudgeRL 프레임워크

검증 가능한 보상을 활용한 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)은 대규모 언어 모델 (LLM)의 추론 능력을 향상시키기 위한 확장 가능한 패러다임으로 부상했습니다. 그러나 RLVR의 효과는 탐색 (Exploration)에 의해 근본적으로 제한됩니다. 즉, 정책 (Policy)은 이미 샘플링된 궤적 (Trajectories) 내에서만 개선될 수 있습니다. 롤아웃 (Rollout) 횟수를 늘리면 이 문제를 완화할 수 있지만, 이러한 무차별적인 스케일링 (Brute-force scaling)은 계산 비용이 많이 들며, 최적화 목적 함수 (Optimization objective)를 수정하는 기존 방식들은 무엇을 탐색할지에 대해 제한적인 제어만을 제공합니다.

본 연구에서는 RLVR에서 구조화되고 다양성 중심적인 탐색을 위한 프레임워크인 NudgeRL을 제안합니다. 우리의 접근 방식은 전략 너징 (Strategy Nudging)을 도입하며, 이는 값비싼 오라클 감독 (Oracle supervision)에 의존하지 않고도 다양한 추론 궤적을 유도하기 위해 각 롤아웃을 가벼운 전략 수준의 컨텍스트 (Context)에 조건화합니다. 이러한 구조화된 탐색으로부터 효과적으로 학습하기 위해, 우리는 보상 신호 (Reward signal)를 컨텍스트 간 (Inter-context) 및 컨텍스트 내 (Intra-context) 구성 요소로 분해하고, 발견된 행동을 기본 정책 (Base policy)으로 전달하기 위한 증류 목적 함수 (Distillation objective)를 통합하는 통합 목적 함수를 추가로 제안합니다.

실험적으로 NudgeRL은 최대 8배 더 큰 롤아웃 예산을 사용하는 표준 GRPO보다 뛰어난 성능을 보였으며, 5개의 까다로운 수학 벤치마크 전반에서 오라클 가이드 RL (Oracle-guided RL) 베이스라인을 평균적으로 상회했습니다. 이러한 결과는 구조화된 컨텍스트 기반 탐색이 무차별적인 롤아웃 스케일링과 특권 정보 (Privileged information)에 기반한 실행 가능성 중심 방법론 모두에 대한 효율적이고 확장 가능한 대안이 될 수 있음을 입증합니다. 우리의 코드는 https://github.com/tally0818/NudgeRL 에서 확인할 수 있습니다.

Insights

RLVR을 위한 효율적인 전략 가이드 탐색 기법: NudgeRL 프레임워크

요약

핵심 포인트

댓글

Northern Trust, Visa 수익에 힘입은 강력한 2분기 실적 발표 후 주가 소폭 상승 (NASDAQ:NTRS)

Oatly, 2분기 매출 예상치 상회 및 전망치 개선에 주가 급등 (NASDAQ:OTLY)

우리는 14,085개의 x402 엔드포인트(Endpoints)를 카탈로그화했습니다. 그중 10,508개는 단 하나의 도메인에서 발생했습니다.

1st Source GAAP EPS $1.95로 $0.24 상회, 매출 $118M로 $3.87M 상회

Northern Trust, Visa 수익에 힘입은 강력한 2분기 실적 발표 후 주가 소폭 상승 (NASDAQ:NTRS)

Oatly, 2분기 매출 예상치 상회 및 전망치 개선에 주가 급등 (NASDAQ:OTLY)

우리는 14,085개의 x402 엔드포인트(Endpoints)를 카탈로그화했습니다. 그중 10,508개는 단 하나의 도메인에서 발생했습니다.

1st Source GAAP EPS $1.95로 $0.24 상회, 매출 $118M로 $3.87M 상회