최소한의 RLVR 학습만으로 충분합니다: Rank-1 궤적을 통한 LLM의 외삽 (Extrapolation)
요약
본 연구는 RLVR(검증 가능한 보상을 이용한 강화학습) 과정에서 발생하는 LLM의 파라미터 변화가 매우 낮은 계수(low-rank)를 가지며 예측 가능하다는 점을 발견했습니다. 이를 바탕으로 제안된 RELEX 방법론은 짧은 학습 단계의 데이터만으로 미래의 체크포인트를 선형 회귀로 외삽하여, 전체 학습 시간의 15%만으로도 높은 성능을 달성합니다.
핵심 포인트
- RLVR 가중치 궤적은 Rank-1 근사로 대부분 포착될 만큼 매우 낮은 계수와 높은 예측 가능성을 가짐
- RELEX는 짧은 관찰 창을 통해 Rank-1 부분 공간을 추정하고 미래 체크포인트를 선형적으로 외삽함
- 전체 학습의 15% 단계만으로도 인도메인 및 아웃도메인 벤치마크에서 기존 RLVR 성능과 대등하거나 우수한 성능을 보임
- Rank-1 투영 과정이 확률적 최적화 노이즈를 제거하는 'denoising' 효과를 제공하여 외삽 성능을 높임
검증 가능한 보상을 이용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델 (Large Language Models, LLMs)의 추론 능력을 향상시키는 지배적인 패러다임이 되었으나, 그 결과로 나타나는 파라미터 궤적 (parameter trajectories)의 기저 기하학적 구조는 아직 충분히 탐구되지 않았습니다. 본 연구에서 우리는 RLVR 가중치 궤적이 매우 낮은 계수 (low-rank)를 가지며 매우 예측 가능하다는 것을 입증합니다. 구체적으로, 우리는 다운스트림 성능 향상의 대부분이 파라미터 변화량 (parameter deltas)의 Rank-1 근사 (rank-1 approximation)에 의해 포착된다는 것을 발견했으며, 이 투영 (projection)의 크기는 학습 단계 (training steps)에 따라 거의 선형적으로 진화합니다. 이에 착안하여, 우리는 학습된 모델이 필요하지 않으면서도 짧은 관찰 창 (observation window)으로부터 Rank-1 부분 공간 (subspace)을 추정하고 선형 회귀 (linear regression)를 통해 미래의 체크포인트 (checkpoints)를 외삽하는 단순하고 계산 효율적인 방법인 RELEX (REinforcement Learning EXtrapolation)를 제안합니다. 세 가지 모델 (즉, Qwen2.5-Math-1.5B, Qwen3-4B-Base, Qwen3-8B-Base)에 대해, RELEX는 전체 RLVR 학습의 15% 단계만으로도 인도메인 (in-domain) 및 아웃도메인 (out-of-domain) 벤치마크 모두에서 RLVR 성능과 일치하거나 이를 능가하는 체크포인트를 생성합니다. 놀랍게도, RELEX는 추가적인 학습 비용 없이 관찰 창을 훨씬 넘어 외삽할 수 있으며, 지속적인 개선과 함께 관찰된 접두사 (prefix)의 10-20배에 달하는 체크포인트까지 예측할 수 있습니다 (예: 처음 50단계만 관찰하고 1000단계까지 외삽). 우리의 절제 연구 (ablation analysis)는 RELEX의 최소한의 충분성을 확인시켜 줍니다. 즉, 부분 공간의 계수 (subspace rank)를 높이거나 비선형 모델링 (non-linear modeling)을 사용하는 것 모두 외삽에서 추가적인 이득을 가져다주지 않았습니다. 마지막으로, 우리는 RELEX의 성공이 "노이즈 제거 (denoising)" 효과에서 비롯됨을 보여줍니다. 업데이트를 Rank-1 부분 공간으로 투영함으로써, 모델은 외삽 과정에서 성능을 저하시킬 수 있는 확률적 최적화 노이즈 (stochastic optimization noise)를 버리게 됩니다. 우리의 코드는 https://github.com/weizhepei/RELEX 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기