arXiv논문2026. 05. 08. 13:00

On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR

요약

본 논문은 검증 가능한 보상(RLVR)을 통해 모델이 얻는 추론 능력이 주로 rank-1 성분에 집중되어 있음을 분석하고, RLVR이 훈련 데이터에 과적합될 수 있는 역설적인 현상을 밝혀냈습니다. 연구진은 RLVR의 작동 방식을 세 가지 특성으로 특징지었는데, 이는 수학 추론 능력만 유지하며 특정 고유 스펙트럼을 최적화하는 방식입니다. 이러한 발견들은 기존 강화 학습(RL) 패러다임 개선 및 지속 학습 구현에 중요한 통찰력을 제공합니다.

핵심 포인트

RLVR로 획득된 모델의 향상된 추론 능력은 주로 rank-1 성분에 집중되어 있다.
모델은 낮은 보상에도 불구하고 테스트 세트에서 좋은 성능을 내는 '암묵적 보상 과적합' 현상을 보인다.
RLVR은 수학 추론 능력을 유지하며 다른 모델 지식은 분리하여 최적화한다.
RLVR 훈련된 모델의 선형 레이어 고유 값 분포는 무거운 꼬리 분포를 따르며, 이는 샘플링 효율성 최적화를 시사한다.

최근 광범위한 연구는 검증 가능한 보상 (RLVR) 을 통해 모델이 획득한 향상된 추론 능력이 주로 rank-1 성분 내에 집중되어 있음을 입증했습니다. 이 관찰에 기반하여 우리는 주기적 rank-1 대치 (Periodic Rank-1 Substitution) 를 적용하고, RLVR 가 훈련 데이터셋에 대한 암묵적 보상 과적합 (implicit reward overfitting) 을 보일 수 있다는 역설적인 현상을 식별했습니다. 구체적으로, 모델은 훈련 과정 중 보상이 상대적으로 낮음에도 불구하고 테스트 세트에서 만족스러운 성능을 달성할 수 있습니다. 또한, 우리는 RL 훈련의 세 가지 다른 특성을 특징화합니다: (1) RLVR 의 유효 rank-1 성분은 수학 추론 능력만 유지하며 다른 모델 지식은 유지하지 않습니다. (2) RLVR 는 특정 고유 스펙트럼을 최적화함으로써 근본적으로 작동합니다. RLVR 훈련된 모델의 거의 모든 선형 레이어의 고유 값 분포는 무거운 꼬리 분포 (heavy-tailed distribution) 와 유사한 행동을 보입니다. (3) rank-1 성분과 관련된 왼쪽 고유 벡터는 훈련 중 더 강한 정렬 경향을 보이며, 이는 RLVR 가 본질적으로 샘플링 효율성을 최적화하고 있음을 발견한 것과 일치합니다. 종합하면, 우리의 연구와 분석은 RLVR 가 모델 파라미터를 형성하는 방식을 추가로 드러내며, 기존 RL 패러다임이나 다른 훈련 패러다임을 개선하거나 지속 학습 (continual learning) 을 구현하기 위한 잠재적인 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR

요약

핵심 포인트

댓글