arXiv논문2026. 05. 21. 18:34

얼마만큼의 온라인 RL이 충분한가? RLVR에서의 오프라인 선호도 최적화(Offline Preference Optimization)를 위한

요약

GRPO의 높은 계산 비용 문제를 해결하기 위해 짧은 온라인 웜업 후 DPO를 수행하는 G2D 파이프라인을 제안합니다. 실험 결과, 적절한 웜업을 거친 오프라인 DPO가 GRPO보다 훨씬 낮은 비용으로 대등하거나 더 높은 추론 성능을 보였습니다.

핵심 포인트

GRPO의 높은 계산 비용을 줄이기 위한 G2D 파이프라인 제안
짧은 온라인 RL 웜업이 데이터의 정보력을 높여 성능을 결정함
Qwen2.5-7B 모델에서 GRPO 대비 4배 낮은 비용으로 더 높은 성능 달성
과도한 웜업은 오히려 정보력이 낮은 데이터를 초래할 수 있음

검증 가능한 보상으로부터의 강화학습 (Reinforcement Learning from Verifiable Rewards, RLVR)은 GRPO를 주요 사례로 하여 언어 모델의 추론을 위한 강력한 패러다임으로 부상했습니다. 그러나 GRPO는 지속적인 온라인 롤아웃 (online rollout) 생성을 필요로 하며, 이는 계산 비용이 많이 들고 확장하기 어렵게 만듭니다. 직접 선호도 최적화 (Direct Preference Optimization, DPO)는 안정적이고 효율적인 오프라인 대안을 제공하지만, 일반적으로 차가운 (cold) 지도 미세 조정 (Supervised Fine-Tuning, SFT) 정책으로부터 생성된 롤아웃으로 학습될 경우 GRPO와 같은 온라인 RL 방법론에 비해 성능이 낮을 것으로 예상됩니다. 우리는 짧은 GRPO 웜업 (warm-up)을 수행하고, 정적 선호도 데이터셋을 구축하며, DPO로 모델을 오프라인 미세 조정하는 3단계 파이프라인인 G2D (GRPO to DPO)를 소개합니다. Qwen2.5-7B 및 Llama-3.1-8B 모델에 대해 GRPO의 온라인 단계 수 (K)를 다양한 값으로 설정하여 실험한 결과, 적절한 웜업을 거친 오프라인 DPO가 우리의 설정 내에서 훨씬 낮은 계산 비용으로 GRPO와 대등하거나 더 나은 성능을 보임을 확인했습니다. Qwen2.5-7B의 경우, K=150일 때의 G2D는 MATH-500에서 62.4%를 달성하여, 약 4배 낮은 계산 비용으로 GRPO (51.6%)보다 10.8% 높은 성능을 보였습니다. Llama-3.1-8B에서는 K=500일 때의 G2D가 49.4%를 달성하여 우리의 실험 설정에서 GRPO를 능가했습니다. 우리는 성능이 K에 따라 크게 변하지 않는 선호도 쌍 (preference pairs)의 개수가 아니라, 그 정보력 (informativeness)에 의해 결정된다는 것을 보여줍니다. 적절한 웜업은 보정된 불확실성 (calibrated uncertainty)을 가진 롤아웃을 생성하여 더 강력한 대조 신호 (contrastive signal)를 제공하는 반면, 과도한 웜업은 과잉 확신하는 (overconfident) 정책과 정보력이 낮은 데이터를 초래합니다. 우리의 결과는 RLVR에서의 오프라인-온라인 간극을 주로 데이터의 정보력 문제로 재정의하며, 미세 조정 데이터셋의 적절한 난이도 보정(difficulty calibration)을 동반한 짧은 온라인 RL 웜업이 온라인 RL에 대한 계산 효율적인 대안임을 식별합니다.

AI 자동 생성 콘텐츠

원문 바로가기

얼마만큼의 온라인 RL이 충분한가? RLVR에서의 오프라인 선호도 최적화(Offline Preference Optimization)를 위한

요약

핵심 포인트

댓글