arXiv논문2026. 05. 20. 10:59

SGD에서 Muon까지: Schatten-p Norm을 통한 적응형 최적화 (Adaptive Optimization)

요약

본 논문은 DNN 레이어의 특성에 맞춰 최적화 도구의 기하학적 제약을 동적으로 선택할 수 있는 새로운 데이터 기반 적응형 최적화 프레임워크를 제안합니다. 무작위 특징 회귀 대리 모델을 통해 SGD부터 Muon에 이르는 다양한 업데이트 규칙을 보간하며, 기존의 Adam, Muon 등을 특정 극값으로 복원할 수 있는 유연성을 제공합니다. 실험 결과, 매우 낮은 계산 오버헤드만으로도 기존의 최상위 최적화 도구들과 대등하거나 더 뛰어난 성능을 입증했습니다.

핵심 포인트

LMO(Linear Minimization Oracle) 이론을 기반으로 레이어별 최적의 기하학적 제약을 동적으로 결정
단일 단계 무작위 특징 회귀 대리 모델을 사용하여 그래디언트 및 활성화 통계로부터 폐쇄형 기준 도출
SGD, Adam, Muon, MuAdam을 프레임워크 내의 특정 극값으로 통합 및 복원 가능
기존 베이스라인 대비 약 3%의 낮은 실행 시간 오버헤드로 높은 확장성 확보
다양한 학습 시나리오에서 Muon 및 AdamW와 대등하거나 우수한 성능 증명

Muon과 같은 현대적인 최적화 도구(Optimizers)들은 업데이트 시 행렬 단위의 기하학적 제약(Matrix-wise geometry constraints)을 부과합니다. 이러한 행렬 단위 제약은 선형 최소화 오라클 (Linear Minimization Oracle, LMO) 이론 하에 통합될 수 있습니다. 그러나 현재의 모든 방법론은 설계 시 의도적으로 선택하거나 경험적으로 결정된 고정된 LMO 기하학을 업데이트 규칙에 적용하며, 이는 문제의 기하학적 구조에 따라 반드시 최적이라고 할 수는 없습니다. 본 논문에서는 개별 심층 신경망 (Deep Neural Network, DNN) 레이어에 대해 프록시 최적(Proxy-optimal) 업데이트 LMO 기하학을 동적으로 선택할 수 있는 새로운 효율적인 데이터 기반 기준 (Data-driven criterion)을 소개합니다. 단일 단계 무작위 특징 회귀 대리 모델 (Single-step random feature regression surrogate model)을 사용하여 그래디언트 (Gradient) 및 활성화 (Activation) 통계로부터 폐쇄형 (Closed form)으로 도출된 우리의 기준은 SGD에서 Muon 업데이트에 이르는 설계 공간을 보간(Interpolating)하며 탐색합니다. 또한, 파라미터 단위의 사전 조건화 (Parameter-wise preconditioning)를 통합함으로써, 우리의 프레임워크는 SGD, Muon, Adam, 그리고 MuAdam을 특정 극값(Extrema)으로서 복원할 수 있습니다. 이 적응형 접근 방식의 확장성을 확보하기 위해, 우리는 이를 효율적인 계산 전략과 결합하여 고도로 최적화된 베이스라인 대비 약 3%의 실행 시간 오버헤드만을 달성했습니다. 개념 증명 (Proof of concept)으로서, 우리는 이 데이터 기반 최적화 도구가 세 가지 서로 다른 학습 시나리오에서 Muon과 AdamW 중 가장 성능이 좋은 최적화 도구와 대등하거나 이를 능가하는 성능을 보여줌을 입증합니다. 궁극적으로, 본 연구는 LMO 기하학이 실행 시간 데이터로부터 성공적이고 효율적으로 적응될 수 있다는 증거를 제공하며, 정적 기하학 (Static geometries)을 넘어선 최적화 도구 설계의 새로운 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SGD에서 Muon까지: Schatten-p Norm을 통한 적응형 최적화 (Adaptive Optimization)

요약

핵심 포인트

댓글