Tensorion: Muon 옵티마이저의 텐서 인지적 일반화
요약
Tensorion은 기존 Muon 옵티마이저를 행렬에서 고차 텐서 구조로 확장한 텐서 인지적 옵티마이저입니다. 텐서 노름 볼 상의 선형 최소화 오라클(LMO)을 활용하여 모델의 다선형 가중치 구조를 반영하며, 기존 Adam 방식보다 개선된 수렴 성능과 안정적인 업데이트를 제공합니다.
핵심 포인트
- Muon 옵티마이저를 고차 텐서 구조로 확장
- 텐서 노름 볼 기반의 선형 최소화 오라클(LMO) 활용
- 계산 효율성을 위해 언폴딩 행렬 연산으로 축소
- Adam 및 기존 베이스라인 대비 개선된 수렴 동작 확인
Adam과 같은 일반적인 1차 옵티마이저 (first-order optimizers)들은 각 파라미터 블록을 비구조화된 벡터 (unstructured vector)로 암묵적으로 취급하며, 이는 많은 현대 머신러닝 모델에 존재하는 다선형 가중치 구조 (multilinear weight structure)를 무시합니다. 최근 연구들은 행렬 구조 (matrix structure)를 활용하는 것이 최적화 역학 (optimization dynamics)을 개선할 수 있음을 보여주었습니다. 주목할 만한 예로, 스펙트럼 노름 제약 조건 (spectral norm constraint) 하에서 가장 가파른 경사 하강법 (steepest descent)을 수행하는 Muon이 있습니다. 우리는 한 단계 더 나아가, Muon의 제약 최적화 (constrained optimization) 관점을 행렬에서 고차 텐서 (higher-order tensors)로 확장하는 텐서 인지적 옵티마이저 (tensor-aware optimizer)인 Tensorion을 소개합니다. Tensorion은 텐서 노름 볼 (tensor norm ball) 상의 선형 최소화 오라클 (linear minimization oracle, LMO)을 중심으로 구축되었습니다. 이 노름은 두 가지 목표 사이의 균형을 맞추기 위해 신중하게 선택되었습니다: 텐서 스펙트럼 노름 (tensor spectral norm)을 긴밀하게 제한하는 동시에, LMO를 다룰 수 있는 수준 (tractable)으로 유지하는 것입니다. 이 LMO는 적응적으로 선택된 언폴딩 행렬 (unfolding matrices)에 대한 연산으로 축소되기 때문에 계산 가능해집니다. 특히, 2차 텐서(즉, 행렬)로 제한될 때 Tensorion은 Muon을 정확하게 복구합니다. 텐서 기반 컴퓨터 비전 문제에 대한 실험은 Tensorion이 평가된 설정에서 Adam 기반 방식 및 기존의 텐서 인지적 베이스라인 (tensor-aware baselines)과 비교하여 개선된 수렴 동작 (convergence behavior)과 더 안정적인 그래디언트 업데이트 (gradient updates)를 제공할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기