MiMuon: 대규모 모델의 일반화 성능을 개선한 혼합 Muon 옵티마이저 (Mixed Muon Optimizer)
요약
본 논문은 대규모 모델의 행렬 구조 파라미터를 위한 Muon 옵티마이저의 일반화 성능을 분석하고, 이를 개선한 MiMuon 옵티마이저를 제안합니다. MiMuon은 Muon과 모멘텀 기반 SGD를 결합하여 기존 Muon의 일반화 오차 한계를 극복하고 $O(1/N)$의 더 낮은 일반화 오차를 달성하면서도 빠른 수렴 속도를 유지합니다.
핵심 포인트
- Muon 옵티마이저의 일반화 오차가 $O(1/Nκ^T)$임을 수학적으로 증명
- Muon과 모멘텀 기반 SGD를 결합한 새로운 MiMuon 옵티마이저 제안
- MiMuon은 기존 Muon보다 개선된 $O(1/N)$의 일반화 오차 성능을 가짐
- MiMuon은 Muon과 동일한 $O(1/T^{1/4})$의 수렴 속도를 유지함
- Qwen3-0.6B 및 YOLO26m 모델 실험을 통해 MiMuon의 효율성 입증
행렬 구조 파라미터 (Matrix-structured parameters)는 대규모 언어 모델 (Large Language Models, LLMs)과 같은 많은 인공지능 모델에서 빈번하게 등장합니다. 보다 최근에는 대규모 모델의 행렬 파라미터를 위해 효율적인 Muon 옵티마이저 (Muon optimizer)가 설계되었으며, 이는 벡터 단위 알고리즘 (Vector-wise algorithms)보다 현저히 빠른 수렴 (Convergence) 속도를 보여줍니다. 일부 연구들이 Muon 옵티마이저의 수렴 특성 (즉, 최적화 오차 (Optimization error))을 연구하기 시작했으나, 그 일반화 특성 (즉, 일반화 오차 (Generalization error))은 아직 확립되지 않았습니다. 따라서 본 논문에서는 알고리즘 안정성 (Algorithmic stability)과 수학적 귀납법 (Mathematical induction)을 기반으로 Muon 옵티마이저의 일반화 오차를 연구하며, Muon이 $O\big(\frac{1}{Nκ^{T}}\big)$의 일반화 오차를 가짐을 증명합니다. 여기서 $N$은 훈련 샘플 크기, $T$는 반복 횟수 (Iteration number)를 나타내며, $κ>0$은 그래디언트 추정치 (Gradient estimate)의 특이값 (Singular values) 사이의 최소 차이를 나타냅니다. Muon의 일반화 성능을 향상시키기 위해, 우리는 그래디언트의 직교화 (Orthogonalization)를 신중하게 사용하여 Muon과 모멘텀 기반 SGD (Momentum-based SGD) 옵티마이저를 결합한 효과적인 혼합 Muon (MiMuon) 옵티마이저를 제안합니다. 그다음, $κ$가 일반적으로 매우 작기 때문에 우리의 MiMuon 옵티마이저가 Muon 옵티마이저의 $O\big(\frac{1}{Nκ^{T}}\big)$보다 낮은 $O\big(\frac{1}{N}\big)$의 일반화 오차를 가짐을 증명합니다. 한편, 우리는 MiMuon 알고리즘의 수렴 특성 또한 연구하였으며, 우리의 MiMuon 알고리즘이 Muon 알고리즘과 동일한 $O(\frac{1}{T^{1/4}})$의 수렴 속도 (Convergence rate)를 가짐을 증명합니다. Qwen3-0.6B 및 YOLO26m을 포함한 대규모 모델 훈련에 대한 일부 수치적 실험 결과는 MiMuon 옵티마이저의 효율성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기