본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 11:56

재사용을 멈춰야 할 때: 샘플 효율적인 RLVR을 위한 동적 그래디언트 게이팅 (Dynamic Gradient Gating)

요약

RLVR(검증 가능한 보상을 이용한 강화학습) 과정에서 샘플 재사용 시 발생하는 정책 변화와 성능 저하 문제를 해결하기 위한 새로운 방법론을 제안합니다. 연구팀은 lm_head의 가중치 변화가 급증하는 '불균형적 가중치 발산(DWD)' 현상을 발견하였으며, 이를 기반으로 해로운 그래디언트를 실시간으로 차단하는 동적 그래디언트 게이팅(DGG) 기술을 개발했습니다.

핵심 포인트

  • RLVR에서 롤아웃 배치를 반복 재사용할 경우 정책 변화가 증폭되어 성능이 급격히 저하되는 문제가 발생함
  • 성능 저하는 중간 레이어와 달리 lm_head의 가중치 변화가 급증하는 '불균형적 가중치 발산(DWD)' 현상과 동기화됨
  • lm_head의 그래디언트 노름(gradient norm)을 통해 정책 발산을 실시간으로 감지할 수 있음을 이론적으로 증명함
  • 제안된 DGG 방식은 단일 사용(single-use) 베이스라인 대비 최대 2.93배의 샘플 효율성과 2.14배의 속도 향상을 달성함

검증 가능한 보상을 이용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델 (Large Language Models, LLMs)의 고급 추론을 위한 지배적인 패러다임이 되었으나, 롤아웃 샘플 (rollout samples)을 얻는 비용이 많이 들어 샘플 효율성 (sample efficiency)이 중요한 병목 현상이 되고 있습니다. 자연스러운 해결책은 고전적인 강화학습 (RL)의 표준 관행처럼 각 롤아웃 배치 (rollout batch)를 여러 번의 그래디언트 업데이트 (gradient updates)에 재사용하는 것입니다. 그러나 RLVR에서는 이것이 정책 변화 (policy shift)를 증폭시켜 심각한 성능 저하를 초래합니다. 재사용을 중단할 만큼 충분히 빠르게 성능 저하의 시작을 감지하는 것은 여전히 미해결된 도전적인 과제로 남아 있습니다. 우리는 extit{불균형적 가중치 발산 (Disproportionate Weight Divergence, DWD)} 현상을 식별함으로써 이 간극을 메웁니다. 즉, 성능 저하는 중간 레이어 (intermediate layers)는 안정적으로 유지되는 반면, exttt{lm_head}의 가중치 변화가 급격히 급증하는 현상과 동기화되어 발생합니다. 경험적으로 우리는 DWD가 다양한 LLM 및 작업 전반에서 일관되게 나타남을 확인했습니다. 이론적으로 우리는 (i) 해로운 그래디언트 (harmful gradients)가 exttt{lm_head}에 집중되는 반면 중간 레이어는 구조적으로 감쇠(attenuated)된다는 점과, (ii) exttt{lm_head} 그래디언트 노름 (gradient norm)이 정책 발산 (policy divergence)의 하한선(lower-bounds)이 된다는 점을 증명합니다. 이러한 결과는 exttt{lm_head} 그래디언트 노름을 치명적인 정책 변화를 알리는 원칙적이고 실시간적인 신호로 확립합니다. 이 통찰력을 바탕으로, 우리는 exttt{lm_head} 그래디언트 노름을 실시간으로 모니터링하고 해로운 그래디언트가 옵티마이저 (optimizer)를 오염시키기 전에 차단하는 경량 개입 방식인 extit{동적 그래디언트 게이팅 (Dynamic Gradient Gating, DGG)}을 제안합니다. DGG는 수학, ALFWorld, WebShop, 그리고 검색 증강 질의응답 (search-augmented QA) 작업 전반에서 표준적인 단일 사용 (single-use) 베이스라인과 일치하거나 이를 능가하며, 최대 $2.93 imes$의 샘플 효율성과 $2.14 imes$의 실제 시간 (wall-clock) 속도 향상을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0