arXiv논문2026. 06. 03. 12:15

먼저 노이즈를 제거하고 나중에 직교화하라: Spectral Filtering을 통한 Muon의 Momentum 이해

요약

본 연구는 Muon 옵티마이저 내 Momentum의 역할을 Spectral Filtering 관점에서 분석합니다. Momentum이 신호는 보존하고 섭동은 억제하여 스펙트럼 간극을 확장함으로써, 직교화 단계의 안정성을 높이고 업데이트의 신뢰도를 향상시킨다는 것을 증명합니다.

핵심 포인트

Momentum이 Spectral filter 역할을 수행함을 규명
신호와 섭동 사이의 Spectral gap을 확장하여 안정성 확보
직교화 전 Momentum 적용이 신호 정렬에 더 효과적임
LLM 사전 학습 등 다양한 태스크에서 이론적 타당성 입증

Muon은 최근 대규모 언어 모델 (LLM) 학습에서 강력한 경험적 성능을 입증했으나, Muon 내에서 Momentum (관성)의 이론적 역할은 여전히 불분명합니다. 기존의 Muon 분석은 Spectral updates (스펙트럼 업데이트)를 단독으로 연구하기 위해 Momentum을 제거하거나, Momentum이 왜 경험적 성능을 향상시키는지 설명하지 못한 채 그대로 유지하는 방식을 취해왔습니다. 본 연구는 Muon의 Momentum이 Spectral filter (스펙트럼 필터) 역할을 한다는 것을 보여줌으로써 이러한 간극을 메웁니다. 구조화된 Signal-plus-perturbation (신호 및 섭동) Gradient (기울기) 모델 하에서, 우리는 Momentum이 지배적인 Signal (신호)은 보존하면서 Perturbation (섭동)은 억제하여, 이들 사이의 Spectral gap (스펙트럼 간극)을 확장한다는 것을 증명합니다. 이렇게 확장된 간극은 Muon의 Orthogonalization (직교화) 단계로 전달되는 행렬의 Singular subspaces (특이 부분 공간)를 안정화하여, 결과적으로 생성되는 Update (업데이트)를 더욱 신뢰할 수 있게 만듭니다. 나아가 우리는 Orthogonalization 이전에 Momentum을 적용하는 것이, 이 순서를 뒤바꾸거나 단순히 Momentum을 제거하는 것보다 Gradient의 Signal component (신호 성분)와 증명 가능한 수준으로 더 강력한 정렬(Alignment)을 달성함을 보여줍니다. LLM pretraining (사전 학습)을 포함한 다양한 태스크에 걸친 실험은 우리의 이론적 분석을 뒷받침합니다. 더 넓게는, 우리의 이론이 다른 Matrix-based optimizers (행렬 기반 최적화 도구)에서 Momentum의 이점을 이해하기 위한 출발점을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

먼저 노이즈를 제거하고 나중에 직교화하라: Spectral Filtering을 통한 Muon의 Momentum 이해

요약

핵심 포인트

댓글