arXiv논문2026. 06. 23. 11:12

Muon 옵티마이저의 성능과 한계 이해를 향하여: 강-계곡 (River-Valley) 관점

요약

Muon 옵티마이저의 성능을 강-계곡(River-Valley) 관점에서 분석한 연구입니다. Muon이 초기 학습에는 유리하지만, 목표 지점 근처에서는 잔여 스케일 정보 부족으로 진동이 발생할 수 있음을 이론적으로 규명했습니다.

핵심 포인트

Muon의 성능을 설명하기 위한 혼합 스파이크 행렬 센싱 모델 도입
강-계곡 관점을 통한 Muon의 초기 수렴 속도와 후기 진동 문제 분석
직교화된 업데이트가 목표 근처에서 오버슈팅을 유발할 수 있음
최종 단계에서 GD와 유사한 정밀화 옵티마이저로 전환하는 2단계 접근법 제안

최근 Muon은 스펙트럼 정규화 (spectral normalization) 및 개선된 컨디셔닝 (conditioning)을 통해 그 장점을 강조하는 많은 연구와 함께, Adam 계열 옵티마이저 (optimizers)에 대한 매력적인 대안으로서 상당한 주목을 받아왔습니다. 그러나 이러한 긍정적인 이론적 서사는 대규모 언어 모델 (LLM) 학습에서의 경험적 성능과 대조를 이룹니다. LLM 학습에서 Adam/AdamW 대비 Muon의 이점은 종종 엇갈리며, 스케줄에 민감하고, 일관되게 우월하지는 않습니다. 이러한 격차를 해소하기 위해, 우리는 Muon의 강점과 한계를 모두 특징짓는 궤적 수준 (trajectory-level) 이론을 개발합니다. 우리는 센싱 연산자 (sensing operator)가 신호 (signal), 스파이크 (spike), 벌크 (bulk) 구성 요소로 분해되어, LLM 학습을 연상시키는 이방성 구조 (anisotropic structure)와 롱테일 (long-tail) 정보의 혼합을 포착하는 혼합 스파이크 행렬 센싱 (mixed-spiked matrix sensing) 모델을 도입합니다. 이에 더해, 우리는 지형 (landscape)을 원하는 솔루션으로 흐르는 강 방향 (river direction)과 불필요하거나 작업과 무관한 정보를 인코딩하는 언덕 방향 (hill directions)으로 구성된 것으로 보는 강-계곡 (river-valley) 관점을 채택했습니다. 모멘텀이 없는 (momentum-free) 설정에서, 우리는 Muon이 최적화 초기 단계 동안 정보를 담고 있는 강 방향을 따라 더 빠르게 이동하지만, 강 바닥 근처에서는 경사 하강법 (gradient descent)보다 훨씬 느리게 수렴할 수 있음을 보여줍니다. 그런 다음 우리는 스펙트럴 강 (spectral river) 위의 점들을 연구함으로써, 모멘텀을 포함한 일반적인 비볼록 (nonconvex) 목적 함수로 강-계곡 관점을 확장합니다. 이 경우 Muon은 초기에 더 빠르게 수렴하지만, 직교화된 업데이트 (orthogonalized update)가 잔여 스케일 정보 (residual scale information)를 제거하여 목표 솔루션 근처에서 오버슈팅 (overshooting)과 진동 (oscillation)이 발생하기 쉽습니다. 종합하면, 이러한 결과들은 우리의 특징 규명이 스파이크 행렬 센싱 (spiked matrix sensing)을 넘어 확장됨을 시사하며, Muon을 위해 고정된 학습률 스케줄 (learning-rate schedule)에만 의존하기보다는 최종 단계에서 GD와 유사한 정밀화 옵티마이저 (refinement optimizers)로 전환할 것을 동기 부여합니다. 우리는 또한 언어 모델 학습 실험을 통해 이러한 2단계 접근 방식을 뒷받침하는 예비 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Muon 옵티마이저의 성능과 한계 이해를 향하여: 강-계곡 (River-Valley) 관점

요약

핵심 포인트

댓글