arXiv논문2026. 06. 25. 22:33

가중치 벡터의 크기와 방향 분리를 통한 신경망 학습 개선

요약

가중치의 크기와 방향을 분리하여 업데이트하는 MD Decoupling 방식을 제안합니다. 이 방식은 기존 옵티마이저의 결합된 역학을 개선하여 가중치 감쇠나 웜업 없이도 안정적인 학습을 가능하게 합니다.

핵심 포인트

가중치를 고정된 노름 방향과 별도의 크기 이득으로 분리
가중치 감쇠(Weight Decay) 및 웜업(Warmup) 필요성 제거
Adam 및 Muon 옵티마이저에서 성능 향상 입증
모델 너비에 관계없이 최적의 학습률 전달 가능
MoE 모델 등 대규모 학습 환경에서도 안정성 제공

현대적인 신경망 학습은 각 가중치 행렬 (weight matrix)을 하나의 객체로 다루는 Adam 및 Muon과 같은 옵티마이저 (optimizers)에 의존합니다. 그러나 모든 가중치 행렬은 extit{크기 (magnitude)}와 extit{방향 (direction)}이라는 두 가지 별개의 양을 포함하고 있으며, 행렬 전체를 한꺼번에 단계적으로 업데이트하는 모든 옵티마이저는 그 역학 (dynamics)이 결합되어 있습니다. 즉, 업데이트로 인한 방향 변화는 현재의 크기에 의존하며, 크기는 방향을 학습하는 과정에서 부수적으로 표류하게 되므로, 둘 중 어느 것도 학습률 (learning rate)에 의해 직접적으로 제어되지 않습니다. 따라서 전형적인 학습 방식은 가중치 감쇠 (weight decay) 및 웜업 (warmup)과 같은 주변 레시피에 의존하여 대규모 학습 시 안정성을 유지하려 하지만, 이는 결합 관계를 간접적으로만 조절할 뿐입니다. 최근의 다른 방법들은 대신 가중치를 고정된 노름 (fixed-norm) 구체로 제한하지만, 학습 가능한 크기를 추가하지는 않으므로 스케일 제어를 정규화 계층 (normalization layers)에만 맡깁니다. 우리는 extit{크기-방향 (MD) 분리 (Magnitude--Direction (MD) Decoupling)}를 제안합니다. 이는 각 가중치를 하이퍼스피어 (hypersphere) 상의 고정된 노름 방향과, 별도의 학습률로 업데이트되는 학습 가능한 행별(per-row) 및 열별(per-column) 크기 이득 (magnitude gains)으로 인수분해하는 옵티마이저 수정 방식이며, 이 모든 과정 동안 모델은 여전히 하나의 통합된 가중치 텐서 (weight tensor)를 보게 됩니다. 이 방법은 기본 옵티마이저에 구애받지 않으며 가중치 감쇠 (weight decay)와 웜업 (warmup)의 필요성을 제거합니다. Adam과 Muon 모두에서 MD 분리는 잘 조정된 베이스라인 (baselines)보다 성능을 향상시키고, 재조정 없이 모델 너비(width)에 따라 최적의 학습률 (LR)을 전달하며, 대규모 혼합 전문가 (Mixture-of-Experts (MoE)) 모델에서도 대규모 학습 시 계속해서 도움을 줍니다. 크기와 방향을 별도로 제어되는 양으로 취급함으로써, 더욱 예측 가능한 학습 역학을 생성하고 현대적인 옵티마이저에 폭넓게 적용 가능한 간단한 개선을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

가중치 벡터의 크기와 방향 분리를 통한 신경망 학습 개선

요약

핵심 포인트

댓글