Nora: 대규모 모델 훈련을 위한 확장 가능한 행렬 최적화기 (Normalized Orthogonal Row Alignment)
요약
Nora는 대형 언어 모델(LLM) 훈련의 안정성과 효율성 문제를 해결하기 위해 제안된 새로운 행렬 최적화기입니다. 이 최적화기는 row-wise momentum projection을 통해 가중치 노름과 각속도를 명시적으로 안정화하여 훈련 안정성을 확보합니다. 또한, Transformer Hessian의 구조적 특성을 활용하여 계산 복잡도를 $\text{O}(mn)$으로 유지하면서도 효과적인 사전 조건화(preconditioning)를 가능하게 하여 대규모 모델 훈련에 매우 효율적입니다.
핵심 포인트
- Nora는 LLM 훈련을 위한 새로운 행렬 최적화기로, 안정성과 효율성을 동시에 개선했습니다.
- Row-wise momentum projection을 사용하여 가중치 노름과 각속도를 명시적으로 안정화함으로써 훈련의 안정성을 높였습니다.
- Transformer Hessian의 블록 대각 우세성(block-diagonal dominance)을 활용하여 구조적 사전 조건화를 효과적으로 근사합니다.
- 계산 복잡도를 $\text{O}(mn)$으로 유지하면서도 확장 가능한 최적화자임을 증명하고 관련 스케일링 정리를 확립했습니다.
행렬 기반 최적화기는 대형 언어 모델 (LLM) 훈련에서 막대한 잠재력을 입증했지만, 이상적인 최적화기를 설계하는 것은 여전히 formidable(엄청난) 도전 과제입니다. 우수한 최적화기는 세 가지 핵심 요구사항을 충족해야 합니다: 효율성 (Muon 와 같은 preconditioning 을 통해 최적화를 가속화), 안정성 (신경망에 내재된 scale-invariance 에 엄격히 준수), 그리고 속도 (계산 오버헤드를 최소화). 기존 방법들은 이러한 측면을 다양한程度上 해결하지만, 종종 Muon 과 같이 prohibitive(과도한) 계산 비용을 초래하거나 RMNP 와 같은 radial jitters 를 허용하여 안정성을 해칩니다. 이 격차를 해소하기 위해 우리는 Nora 라는 최적화기를 제안합니다. Nora 는 행렬에 대한 row-wise momentum projection 을 통해 weight norms 과 angular velocities 를 명시적으로 안정화함으로써 훈련 안정성을 달성합니다. 동시에, Transformer Hessian 의 block-diagonal dominance 를 활용하여 Nora 는 structured preconditioning 을 효과적으로 근사하면서 $\ ext{O}(mn)$ 의 최적 계산 복잡도를 유지합니다. 또한, Nora 가 확장 가능한 최적화자임을 증명하고 이에 해당하는 scaling theorems 을 확립했습니다. 두 줄의 코드만 필요한 stream-lined 구현으로, 우리의 예비 실험은 대규모 훈련을 위한 효율적이고 매우 유망한 최적화기인 Nora 를 검증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기