비동기 RLHF를 위한 Staleness-학습률 스케일링 법칙 (Staleness-Learning Rate Scaling Laws)
요약
비동기 RLHF 시스템에서 발생하는 롤아웃 지연(staleness)이 학습에 미치는 영향을 수학적으로 분석한 연구입니다. GRPO 환경에서 staleness와 학습률 사이의 관계를 규명하고, 학습 안정성을 보장하기 위한 새로운 스케일링 법칙과 제약 조건을 제시합니다.
핵심 포인트
- 비동기 RLHF의 롤아웃 지연이 대리-경사 편향을 유발함을 증명
- staleness와 학습률(eta)의 곱에 비례하는 편향 차수 도출
- 조건부 붕괴 시간 스케일링 법칙을 통한 학습 안정성 분석
- 안정적인 학습을 위한 두 가지 핵심 제약 조건(stability conditions) 산출
고처리량 (High-throughput) RLHF 시스템은 종종 롤아웃 생성 (rollout generation)과 정책 최적화 (policy optimization)를 분리하며, 이로 인해 학습자 업데이트 (learner updates) 중에 오래된 (stale) 롤아웃을 사용하게 됩니다. 본 연구에서는 비동기 GRPO에서의 이러한 staleness의 영향을 연구합니다. 우리는 GRPO 대리 목적 함수 (surrogate objective)에서 행동 정책 (behavior policy)을 명시적으로 나타내고, 학습자가 사용하는 대리-경사 매핑 (surrogate-gradient mapping)과 분포 의존적 모집단 목적 함수 (distribution-dependent population objective)의 실제 전미분 (true total derivative)을 구분합니다. 국소 유계성 (local boundedness), 분포 매끄러움 (distributional smoothness), 그리고 행동 정책 매끄러움 (behavior-policy smoothness)의 가정 하에, 우리는 stale 롤아웃이 $O(S imes ext{eta})$ 차수의 단계당 대리-경사 편향 (per-step surrogate-gradient bias)을 유발함을 보여줍니다. 여기서 $S$는 최대 롤아웃 지연 (rollout lag)을 나타내고 $ ext{eta}$는 학습률 (learning rate)을 나타냅니다. 나아가 우리는 조건부 붕괴 시간 스케일링 법칙 (conditional collapse-time scaling law)을 도출합니다: 사이클 내 드리프트 (within-cycle drift)가 배치 수준 클리핑 반경 (batch-level clipping radius) 미만으로 유지될 때, 붕괴는 주로 누적 학습자 드리프트 $T imes ext{eta}$에 의해 결정됩니다. 반면 stale-롤아웃 제약 조건이 활성화되면, 안정성은 대신 $S imes ext{eta}$에 명시적으로 의존합니다. 이는 $ ext{eta} ext{ << } ext{min} ext{{} R_{ ext{batch}} / (S imes G_{ ext{upd}}), R_{ ext{crit}} / (T imes G_{ ext{upd}}) ext{}}$라는 두 가지 제약 안정성 조건을 산출하며, 왜 호라이즌 제한 영역 (horizon-limited regime)에서 최대 안정 학습률이 staleness에 약하게 의존하는 것처럼 보이는지를 설명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기