arXiv논문2026. 06. 26. 11:21

DMuon: Adam에 근접한 오버헤드로 효율적인 분산 Muon 학습 구현

요약

행렬 직교화 기반 옵티마이저인 Muon의 높은 연산 비용 문제를 해결하기 위해 분산 학습 구현체인 DMuon을 제안합니다. DMuon은 기존 프레임워크 수정 없이 드롭인 모듈로 통합 가능하며, LLM 및 기초 모델 학습 시 획기적인 가속 성능을 제공합니다.

핵심 포인트

Muon 옵티마이저의 높은 Newton-Schulz 반복 비용 문제 해결
기존 학습 파이프라인에 즉시 적용 가능한 드롭인 모듈 방식
LLM 학습 시 엔드 투 엔드 스텝 시간 최대 3.01배 가속
옵티마이저 스텝 시간에서 최대 163배의 압도적 성능 향상
AdamW 수준의 낮은 지연 시간으로 효율적인 모델 스케일링 지원

Muon으로 대표되는 행렬 직교화 기반 옵티마이저(Matrix-orthogonalization-based optimizers)는 광범위한 현대 딥러닝 워크로드 전반에서 강력한 수렴 성능을 입증해 왔습니다. 행렬 인식 업데이트(Matrix-aware updates)는 모델 아키텍처가 규모와 이질성 면에서 계속 성장함에 따라, 기존의 요소별 최적화(Element-wise optimization)에 대한 매력적인 대안을 제공합니다. 그러나 요소별 옵티마이저를 가정하고 구축된 현대의 분산 학습 인프라는 Muon과 같은 행렬 수준의 옵티마이저와는 잘 맞지 않습니다. Muon의 업데이트는 전체 가중치 행렬을 결합하며 비용이 많이 드는 Newton-Schulz 반복(iterations)을 필요로 하기 때문입니다. 일반적인(Vanilla) Muon 구현은 순전파(Forward pass) 및 역전파(Backward pass) 비용의 2배 이상을 소모합니다. 이러한 격차를 해소하기 위해, 우리는 프레임워크 수준의 수정 없이 기존 학습 파이프라인에 드롭인 모듈(drop-in module)로 통합되는 오픈 소스 분산 Muon 구현체인 DMuon을 제시합니다. Embodied foundation model 및 대규모 언어 모델 (LLM) 학습 워크로드 모두에서, DMuon은 엔드 투 엔드 스텝 시간(end-to-end step time)에서 1.48x-3.01x의 가속을, 옵티마이저 스텝 시간(optimizer-step time)에서 6.85x-163.00x의 가속을 달성하여, 스텝당 지연 시간(per-step latency)을 AdamW 수준에 근접하게 낮추고 모델 학습에서의 효율적인 스케일링을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DMuon: Adam에 근접한 오버헤드로 효율적인 분산 Muon 학습 구현

요약

핵심 포인트

댓글