비동기 RLHF를 위한 Staleness-학습률 스케일링 법칙 (Staleness-Learning Rate Scaling Laws)

고처리량 (High-throughput) RLHF 시스템은 종종 롤아웃 생성 (rollout generation)과 정책 최적화 (policy optimization)를 분리하며, 이로 인해 학습자 업데이트 (learner updates) 중에 오래된 (stale) 롤아웃을 사용하게 됩니다. 본 연구에서는 비동기 GRPO에서의 이러한 staleness의 영향을 연구합니다. 우리는 GRPO 대리 목적 함수 (surrogate objective)에서 행동 정책 (behavior policy)을 명시적으로 나타내고, 학습자가 사용하는 대리-경사 매핑 (surrogate-gradient mapping)과 분포 의존적 모집단 목적 함수 (distribution-dependent population objective)의 실제 전미분 (true total derivative)을 구분합니다. 국소 유계성 (local boundedness), 분포 매끄러움 (distributional smoothness), 그리고 행동 정책 매끄러움 (behavior-policy smoothness)의 가정 하에, 우리는 stale 롤아웃이 $O(S imes ext{eta})$ 차수의 단계당 대리-경사 편향 (per-step surrogate-gradient bias)을 유발함을 보여줍니다. 여기서 $S$는 최대 롤아웃 지연 (rollout lag)을 나타내고 $ ext{eta}$는 학습률 (learning rate)을 나타냅니다. 나아가 우리는 조건부 붕괴 시간 스케일링 법칙 (conditional collapse-time scaling law)을 도출합니다: 사이클 내 드리프트 (within-cycle drift)가 배치 수준 클리핑 반경 (batch-level clipping radius) 미만으로 유지될 때, 붕괴는 주로 누적 학습자 드리프트 $T imes ext{eta}$에 의해 결정됩니다. 반면 stale-롤아웃 제약 조건이 활성화되면, 안정성은 대신 $S imes ext{eta}$에 명시적으로 의존합니다. 이는 $ ext{eta} ext{ << } ext{min} ext{{} R_{ ext{batch}} / (S imes G_{ ext{upd}}), R_{ ext{crit}} / (T imes G_{ ext{upd}}) ext{}}$라는 두 가지 제약 안정성 조건을 산출하며, 왜 호라이즌 제한 영역 (horizon-limited regime)에서 최대 안정 학습률이 staleness에 약하게 의존하는 것처럼 보이는지를 설명합니다.

Insights

비동기 RLHF를 위한 Staleness-학습률 스케일링 법칙 (Staleness-Learning Rate Scaling Laws)

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침