Muon은 Adam보다 더 강건하고 전이 가능한 특징을 학습한다
요약
Muon 옵티마이저가 Adam 및 SGD 대비 강건성과 전이 가능성 측면에서 우수한 특징 학습 능력을 갖추었음을 입증하는 연구입니다. Transformer와 CNN 아키텍처 전반에서 더 큰 로짓 마진과 은닉 상태의 높은 다양성을 보여줍니다.
핵심 포인트
- Muon은 Adam/SGD보다 손상된 데이터에 대해 더 강건한 특징을 학습함
- 계층별 프로브 분석 결과, 더 큰 로짓 마진을 확보함을 확인
- 다운스트림 태스크에서 더 효과적인 특징 전이 성능을 입증
- 높은 유효 순위(effective rank)를 통한 은닉 상태의 다양성 확보
- 다중 구성 요소 특징 문제에서 이론적 우위 증명
Muon은 최근 대규모 언어 모델 (LLMs) 및 비전 분류기 (vision classifiers)의 사전 학습 (pretraining)을 위한 최첨단 옵티마이저 (optimizer)로 부상했습니다. Adam 및 SGD에 비해 효율성 측면의 이점에도 불구하고, Muon의 특징 학습 (feature-learning) 이점은 여전히 불분명합니다. 본 논문은 강건성 (robustness) 및 전이 가능성 (transferability)의 관점을 통해 Muon의 특징 학습 이점을 조사합니다. 첫째, 손상된 이미지와 텍스트에서 사전 학습된 모델을 평가함으로써, Transformer 및 합성곱 신경망 (CNNs)을 포함한 다양한 아키텍처 전반에서 Muon이 학습한 특징이 Adam 및 SGD가 학습한 특징보다 일관되게 더 강건하다는 것을 보여줍니다. 학습된 계층별 프로브 (layer-wise probes)를 사용하여, 이러한 강건성 이점이 계층 전반에 걸쳐 더 큰 로짓 마진 (logit margins)에 반영됨을 추가로 보여줍니다. 둘째, 사전 학습된 파라미터로부터 다운스트림 태스크 (downstream tasks)에서 선형 분류기 (linear classifiers)를 학습시키거나 전체 모델을 미세 조정 (fine-tuning)함으로써, Muon이 학습한 특징이 Adam 및 SGD가 학습한 특징보다 더 효과적으로 전이됨을 입증합니다. 이러한 전이 가능성 이점은 유효 순위 (effective rank)로 측정된 계층 간 은닉 상태 (hidden states)의 다양성에 의해 더욱 뒷받침됩니다. 마지막으로, 다중 구성 요소 특징 (multi-component features)을 가진 대표적인 분류 문제에서, 우리는 Muon이 Adam 및 SGD보다 더 큰 마진과 더 높은 유효 순위를 달성함을 증명하여 우리의 경험적 발견에 대한 이론적 근거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기