arXiv논문2026. 06. 16. 12:44

환상적인 사전 학습 최적화 도구와 그 발견처 II: Hyperball 최적화

요약

Muon과 같은 행렬 기반 최적화 도구의 효율성을 높이기 위해 제안된 Hyperball 최적화 도구에 관한 연구입니다. 가중치와 업데이트의 프로베니우스 노름을 고정하여 AdamW 대비 성능 저하 문제를 해결하고 학습 속도를 향상시킵니다.

핵심 포인트

Hyperball은 가중치 행렬과 업데이트의 프로베니우스 노름을 상수로 고정하는 래퍼입니다.
Muon과 결합 시 Qwen3 스타일 모델에서 20-30%의 토큰 등가 속도 향상을 달성합니다.
가중치 감쇠가 각도 학습률을 결정하도록 하여 학습률 전이를 개선합니다.
기존 이론을 바탕으로 평형 가중치 노름을 안정적으로 유지합니다.

Muon과 같은 행렬 기반 최적화 도구 (Matrix based optimizers)는 언어 모델의 사전 학습 (pretraining) 속도를 상당히 높일 수 있지만, 표준적인 상수 결합 가중치 감쇠 (standard constant decoupled weight decay)를 사용할 경우 모델 크기와 데이터 규모가 커짐에 따라 AdamW 대비 이점이 줄어드는 것이 관찰되었습니다. 우리는 이 문제를 해결하는 간단한 최적화 도구 래퍼 (optimizer wrapper)인 Hyperball을 제안합니다. Adam 또는 Muon과 같은 기본 최적화 도구 (base optimizer)가 주어지면, Hyperball은 가중치 행렬 (weight matrices)과 그에 대응하는 최적화 업데이트 (optimizer updates)의 프로베니우스 노름 (Frobenius norms)을 고정된 상수로 설정합니다. 최대 1.2B 파라미터 규모의 Qwen3 스타일 모델에서, Muon Hyperball은 가중치 감쇠 (weight decay) 베이스라인 대비 20--30%의 토큰 등가 속도 향상 (token equivalent speedup)을 달성합니다. 또한 Hyperball은 결합 가중치 감쇠 (decoupled weight decay)와 비교했을 때 너비 (widths)와 깊이 (depths) 전반에 걸친 학습률 전이 (learning rate transfer)를 개선합니다. 이 방법은 가중치 감쇠 (weight decay)를 통한 학습이 오직 학습 하이퍼파라미터 (training hyperparameters)에만 의존하는 평형 가중치 노름 (equilibrium weight norm)으로 이어진다는 기존 이론에서 영감을 얻었습니다. 이 메커니즘을 통해 가중치 감쇠 (weight decay)는 각도 학습률 (angular learning rate), 즉 가중치 행렬의 방향이 얼마나 빨리 변하는지를 결정하게 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

환상적인 사전 학습 최적화 도구와 그 발견처 II: Hyperball 최적화

요약

핵심 포인트

댓글