On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR
요약
본 논문은 검증 가능한 보상(RLVR)을 통해 모델이 얻는 추론 능력이 주로 rank-1 성분에 집중되어 있음을 분석하고, RLVR이 훈련 데이터에 과적합될 수 있는 역설적인 현상을 밝혀냈습니다. 연구진은 RLVR의 작동 방식을 세 가지 특성으로 특징지었는데, 이는 수학 추론 능력만 유지하며 특정 고유 스펙트럼을 최적화하는 방식입니다. 이러한 발견들은 기존 강화 학습(RL) 패러다임 개선 및 지속 학습 구현에 중요한 통찰력을 제공합니다.
핵심 포인트
- RLVR로 획득된 모델의 향상된 추론 능력은 주로 rank-1 성분에 집중되어 있다.
- 모델은 낮은 보상에도 불구하고 테스트 세트에서 좋은 성능을 내는 '암묵적 보상 과적합' 현상을 보인다.
- RLVR은 수학 추론 능력을 유지하며 다른 모델 지식은 분리하여 최적화한다.
- RLVR 훈련된 모델의 선형 레이어 고유 값 분포는 무거운 꼬리 분포를 따르며, 이는 샘플링 효율성 최적화를 시사한다.
최근 광범위한 연구는 검증 가능한 보상 (RLVR) 을 통해 모델이 획득한 향상된 추론 능력이 주로 rank-1 성분 내에 집중되어 있음을 입증했습니다. 이 관찰에 기반하여 우리는 주기적 rank-1 대치 (Periodic Rank-1 Substitution) 를 적용하고, RLVR 가 훈련 데이터셋에 대한 암묵적 보상 과적합 (implicit reward overfitting) 을 보일 수 있다는 역설적인 현상을 식별했습니다. 구체적으로, 모델은 훈련 과정 중 보상이 상대적으로 낮음에도 불구하고 테스트 세트에서 만족스러운 성능을 달성할 수 있습니다. 또한, 우리는 RL 훈련의 세 가지 다른 특성을 특징화합니다: (1) RLVR 의 유효 rank-1 성분은 수학 추론 능력만 유지하며 다른 모델 지식은 유지하지 않습니다. (2) RLVR 는 특정 고유 스펙트럼을 최적화함으로써 근본적으로 작동합니다. RLVR 훈련된 모델의 거의 모든 선형 레이어의 고유 값 분포는 무거운 꼬리 분포 (heavy-tailed distribution) 와 유사한 행동을 보입니다. (3) rank-1 성분과 관련된 왼쪽 고유 벡터는 훈련 중 더 강한 정렬 경향을 보이며, 이는 RLVR 가 본질적으로 샘플링 효율성을 최적화하고 있음을 발견한 것과 일치합니다. 종합하면, 우리의 연구와 분석은 RLVR 가 모델 파라미터를 형성하는 방식을 추가로 드러내며, 기존 RL 패러다임이나 다른 훈련 패러다임을 개선하거나 지속 학습 (continual learning) 을 구현하기 위한 잠재적인 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기