잔차 연결 (Residual Connection)로서의 Muon
요약
Muon 옵티마이저의 성공 원인을 암시적 잔차 연결(Implicit Residual Connection) 관점에서 해석한 연구입니다. 업데이트를 직교화함으로써 그래디언트 충실도는 일부 희생하되, 하위 계층을 위한 표현 보존 능력을 향상시킨다는 점을 밝힙니다.
핵심 포인트
- Muon을 암시적 잔차 연결로 해석하는 기계론적 관점 제안
- 업데이트 직교화가 하위 계층의 표현 보존을 향상시킴
- 로컬 타겟 최적화 속도와 하위 계층 사용성 간의 트레이드오프 분석
- 효과적인 옵티마이저 설계를 위한 새로운 설계 관점 제시
Muon은 최근 대규모 신경망 (Neural Networks) 학습을 위한 가장 효과적인 옵티마이저 (Optimizer) 중 하나로 부상했으나, 그 경험적 성공은 여러 가지 서로 다른 관점에서 설명되어 왔습니다. 본 논문에서 우리는 간단한 기계론적 해석 (Mechanistic Interpretation)을 제안합니다: Muon은 학습 과정 중 암시적인 잔차 연결 (Implicit Residual Connection)로 이해될 수 있습니다. 구체적으로, 업데이트를 직교화 (Orthogonalizing)하는 것은 즉각적인 그래디언트 충실도 (Gradient Fidelity)를 일부 희생할 수 있지만, 하위 계층 (Downstream Layers)을 위한 표현 보존 (Representation Preservation)을 향상시킵니다. 우리는 통제된 선형 최적화 (Linear Optimization) 설정에서 이러한 트레이드오프 (Trade-off)를 연구하며, 여기서 Muon은 로컬 타겟 (Local Target)에 맞추는 속도는 더 느리지만 하위 계층이 활용하기에는 더 쉬운 표현을 학습할 수 있습니다. 우리의 결과는 Muon에 대한 개념적 설명과, 로컬 하강 (Local Descent)과 하위 계층의 사용성 (Downstream Usability) 사이의 균형을 맞추는 옵티마이저 설계를 위한 관점을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기