본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 22:33

가중치 벡터의 크기와 방향 분리를 통한 신경망 학습 개선

요약

가중치의 크기와 방향을 분리하여 업데이트하는 MD Decoupling 방식을 제안합니다. 이 방식은 기존 옵티마이저의 결합된 역학을 개선하여 가중치 감쇠나 웜업 없이도 안정적인 학습을 가능하게 합니다.

핵심 포인트

  • 가중치를 고정된 노름 방향과 별도의 크기 이득으로 분리
  • 가중치 감쇠(Weight Decay) 및 웜업(Warmup) 필요성 제거
  • Adam 및 Muon 옵티마이저에서 성능 향상 입증
  • 모델 너비에 관계없이 최적의 학습률 전달 가능
  • MoE 모델 등 대규모 학습 환경에서도 안정성 제공

현대적인 신경망 학습은 각 가중치 행렬 (weight matrix)을 하나의 객체로 다루는 Adam 및 Muon과 같은 옵티마이저 (optimizers)에 의존합니다. 그러나 모든 가중치 행렬은 extit{크기 (magnitude)}와 extit{방향 (direction)}이라는 두 가지 별개의 양을 포함하고 있으며, 행렬 전체를 한꺼번에 단계적으로 업데이트하는 모든 옵티마이저는 그 역학 (dynamics)이 결합되어 있습니다. 즉, 업데이트로 인한 방향 변화는 현재의 크기에 의존하며, 크기는 방향을 학습하는 과정에서 부수적으로 표류하게 되므로, 둘 중 어느 것도 학습률 (learning rate)에 의해 직접적으로 제어되지 않습니다. 따라서 전형적인 학습 방식은 가중치 감쇠 (weight decay) 및 웜업 (warmup)과 같은 주변 레시피에 의존하여 대규모 학습 시 안정성을 유지하려 하지만, 이는 결합 관계를 간접적으로만 조절할 뿐입니다. 최근의 다른 방법들은 대신 가중치를 고정된 노름 (fixed-norm) 구체로 제한하지만, 학습 가능한 크기를 추가하지는 않으므로 스케일 제어를 정규화 계층 (normalization layers)에만 맡깁니다. 우리는 extit{크기-방향 (MD) 분리 (Magnitude--Direction (MD) Decoupling)}를 제안합니다. 이는 각 가중치를 하이퍼스피어 (hypersphere) 상의 고정된 노름 방향과, 별도의 학습률로 업데이트되는 학습 가능한 행별(per-row) 및 열별(per-column) 크기 이득 (magnitude gains)으로 인수분해하는 옵티마이저 수정 방식이며, 이 모든 과정 동안 모델은 여전히 하나의 통합된 가중치 텐서 (weight tensor)를 보게 됩니다. 이 방법은 기본 옵티마이저에 구애받지 않으며 가중치 감쇠 (weight decay)와 웜업 (warmup)의 필요성을 제거합니다. Adam과 Muon 모두에서 MD 분리는 잘 조정된 베이스라인 (baselines)보다 성능을 향상시키고, 재조정 없이 모델 너비(width)에 따라 최적의 학습률 (LR)을 전달하며, 대규모 혼합 전문가 (Mixture-of-Experts (MoE)) 모델에서도 대규모 학습 시 계속해서 도움을 줍니다. 크기와 방향을 별도로 제어되는 양으로 취급함으로써, 더욱 예측 가능한 학습 역학을 생성하고 현대적인 옵티마이저에 폭넓게 적용 가능한 간단한 개선을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0