arXiv논문2026. 05. 08. 12:51

When and Why SignSGD Outperforms SGD: A Theoretical Study Based on

요약

본 논문은 대규모 모델 훈련에서 주목받는 SignSGD와 같은 시그널 기반 최적화 알고리즘이 왜 그리고 언제 표준 SGD보다 우수한 성능을 보이는지에 대한 이론적 분석을 제시합니다. 기존의 표준 설정(smoothness, finite variance)에서는 SGD가 이미 minimax optimal하여 시그널 기반 방법의 개선 여지가 없다는 한계가 있었습니다. 이를 극복하기 위해 $\ell_1$-norm stationarity, $\ell_ ext{fty}$-smoothness, 그리고 separable noise 모델을 도입한 새로운 문제 기하학 하에서 SignSGD의 이론적 우위를 증명했습니다.

핵심 포인트

SignSGD와 같은 시그널 기반 최적화 알고리즘의 성능 향상에 대한 이론적 근거를 제시함.
표준 설정(smoothness, finite variance)에서는 SGD가 이미 최적이지만, $\ell_1$-norm stationarity 및 separable noise 모델을 사용하면 SignSGD가 우위를 점할 수 있음을 보임.
SignSGD는 특히 sparse noise 환경에서 문제 차원 $d$에 대해 복잡성을 효과적으로 줄이는 것을 수학적으로 증명함.
이론적 분석 결과를 124M 파라미터 GPT-2 모델의 실제 사전 학습 과정에 적용하여, SignSGD가 더 빠른 수렴을 예측할 수 있음을 입증함.

SignSGD 와 Muon 과 같은 시그널 기반 최적화 알고리즘은 대규모 foundation model 훈련에서의 놀라운 성능으로 인해 큰 주목을 받고 있습니다. 이러한 경험적 성공에도 불구하고, 우리는 여전히 왜 그리고 언제 이러한 시그널 기반 방법들이 vanilla SGD 를 능가하는지에 대한 이론적 이해가 부족합니다. 핵심적인 장애물은 표준적인 smoothness 와 finite variance 조건 하에서 SGD 는 $\ell_2$-norm 으로 측정된 stationary point 탐색에 대해 minimax optimal 이며, 이는 표준 설정에서 시그널 기반 방법의 복잡성 향상을 근본적으로 막아놓는다는 점입니다. 이를 극복하기 위해 우리는 $\ell_1$-norm stationarity, $\ell_
fty$-smoothness, 그리고 separable noise 모델을 활용하는 시그널 기반 옵티마이저를 분석했습니다. 이는 signed updates 의 좌표별 특성을 더 잘 포착할 수 있습니다. 이러한 고유한 문제 기하학 하에서 우리는 SignSGD 에 대해 일치된 상한과 하한을 유도하고, SignSGD 가 확실히 SGD 를 능가하는 문제 클래스를 명시적으로 특징화했습니다. 구체적으로, 우리는 \emph{SignSGD 의 상한} 과 \emph{SGD 의 하한} 을 비교하여, SignSGD 가 \emph{sparse noise} 하에서 $d$ (문제 차원) 로 복잡성을 효과적으로 줄인다는 것을 보여줍니다. 또한, 우리는 이 프레임워크를 행렬 도메인으로 확장하고 Muon 옵티마이저에 대한 등가적 최적 하한을 제공하여, 시그널 연산자를 행렬로 확장해도 차원성과 함께 이 최적 스케일을 유지함을 증명했습니다. 마지막으로, 우리는 이론적 상한과 실제를 연결하여, SignSGD 의 이론적 우위가 124M 파라미터 GPT-2 모델의 pretraining 과정에서 더 빠른 수렴을 정확히 예측한다는 것을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

When and Why SignSGD Outperforms SGD: A Theoretical Study Based on

요약

핵심 포인트

댓글