arXiv논문2026. 06. 16. 11:45

Schattor: 딥러닝 최적화를 위한 Schatten 계열 방법론

요약

Schatten 노름을 기반으로 한 새로운 적응형 1차 최적화 방법론인 Schattor를 제안합니다. SGD와 Muon을 통합한 프레임워크로, 확률적 행렬 최적화 문제에서 차원 독립적인 정지 보장을 제공합니다.

핵심 포인트

Schatten 노름 기반의 적응형 1차 최적화 방법론 Schattor 제안
SGD와 Muon을 단일 프레임워크 내에서 통합
행렬 마팅게일 모멘트 바운드를 통한 차원 독립적 정지 보장 확립
멀티 블록 확장을 통한 블록별 최적화 진행 상황의 적응적 조절

현대 딥러닝 최적화(optimization)는 이질적인 파라미터 구조(heterogeneous parameter structures), 노이즈가 섞인 그래디언트(noisy gradients), 그리고 매우 비볼록한 지형(highly nonconvex landscapes)을 특징으로 하며, 이는 알고리즘 설계와 이론적 분석 모두에 상당한 과제를 제기합니다. SGD의 한계와 적응형 옵티마이저(adaptive optimizers)의 성공에 착안하여, 우리는 Schatten 노름(Schatten norms)에 기반한 적응형 1차 방법론(adaptive first-order methods) 계열인 {\it Schattor}를 제안합니다. Schattor는 SGD와 최근 제안된 행렬 변수 적응형 옵티마이저(matrix-variate adaptive optimizer)인 Muon을 단일 Schatten 노름 기반 프레임워크 내에서 통합합니다. 우리는 새로운 행렬 마팅게일 모멘트 바운드(matrix martingale moment bound)를 통해, 확률적 행렬 최적화 문제(stochastic matrix optimization problems)에 대한 Schattor 계열 방법론의 차원 독립적 정지 보장(dimension-free stationarity guarantees)을 확립합니다. 또한, 블록별 최적화 진행 상황을 적응적으로 균형 있게 조절하는 멀티 블록 확장(multi-block extensions)을 개발하고, 이 보다 일반적인 설정에서도 차원 독립적 정지 보장을 증명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Schattor: 딥러닝 최적화를 위한 Schatten 계열 방법론

요약

핵심 포인트

댓글