고차원 2단계 최적화에서의 외부 모멘텀 재시작 (Outer-Momentum Restarting)
요약
DiLoCo와 같은 분산 최적화기에서 통신 효율을 높이기 위해 외부 모멘텀을 주기적으로 재시작하는 메커니즘을 제안합니다. 연구 결과, 이 방식이 오래된 모멘텀을 폐기하고 위상 상쇄를 활용하여 학습 안정성을 높임을 입증했습니다.
핵심 포인트
- 외부 모멘텀의 주기적 재시작을 통한 통신 효율 최적화
- 오래된 모멘텀 폐기를 통한 위상 상쇄 효과 활용
- 언어 모델 사전 학습 시 외부 학습률 및 모멘텀 안정성 향상
- 선형화된 제곱 손실 모델 기반의 모드별 재시작 수축 도출
DiLoCo와 같은 통신 효율적인 분산 최적화기 (Distributed Optimizers)는 워커 (Worker)들이 외부 모멘텀 최적화기 (Outer Momentum Optimizer)와 진행 상황을 집계하기 전에 많은 수의 로컬 업데이트 (Local Updates)를 수행하도록 함으로써 동기화 비용을 줄입니다. 최근 이론에 따르면, 외부 최적화기는 내부 최적화 루프 (Inner Optimization Loop)에 의해 유도된 유효 스펙트럼 (Effective Spectrum)에 작용하며, 외부 모멘텀의 선택이 통신 라운드 (Communication Rounds) 전반에 걸쳐 로컬 업데이트의 진행 상황이 어떻게 축적되는지를 제어한다고 제안되었습니다. 본 연구에서는 이러한 외부 메모리 (Outer Memory)를 제어하기 위한 간단한 보완 메커니즘으로서 외부 모멘텀의 주기적 재시작 (Periodic Restarting)을 연구합니다. 예측 공간 잔차 (Prediction-space Residuals)가 경험적 NTK (Empirical NTK) 하에서 진화하는 선형화된 제곱 손실 모델 (Linearized Squared-loss Model)에서, 우리는 모드별 재시작 수축 (Mode-wise Restart Contraction)을 도출하여, 재설정 (Resets)이 내부 루프의 진행 상황을 보존하면서도 오래된 모멘텀 (Stale Momentum)을 폐기함으로써 위상 상쇄 (Phase Cancellation)를 활용함을 보여줍니다. 토이 실험 (Toy Experiments)은 예측된 수축 동작을 검증하며, 언어 모델 사전 학습 (Language-model Pretraining) 실험은 주기적 재시작이 통신 주기 전반에 걸쳐 외부 학습률 (Outer Learning Rates) 및 모멘텀 값의 안정적인 범위를 넓힌다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기