$\ell_2$-norm 및 $\ell_\infty$-norm을 넘어: 심층 신경망을 위한 곡률 기반 $\ell_p$-norm 스킴
요약
기존 $\ell_2$ 및 $\ell_\infty$ norm 기반 최적화 도구의 한계를 극복하기 위해 곡률 기반의 동적 $\ell_p$-norm 스킴을 제안합니다. 학습 단계에 따라 $p$ 값을 조절하여 높은 곡률 방향의 지배력을 억제하고 안정적인 수렴을 유도합니다.
핵심 포인트
- 곡률 변화에 적응하는 새로운 $\ell_p$-norm 스킴 제안
- LPSGD 및 LPSGDM 최적화 도구 도출
- 코사인 어닐링 전략을 통한 동적 $p$ 값 조절
- 비볼록 설정에서 $O(T^{-1/2})$ 수렴 속도 증명
- VGG, ResNet 등 다양한 모델과 데이터셋에서 성능 검증
심층 신경망 (DNNs)을 위한 기존의 최적화 도구 (optimizers)들은 일반적으로 $\ell_2$ norm 또는 $\ell_\infty$ norm에 의존하며, 이로 인해 파라미터 차원 전반에 걸친 상당한 곡률 (curvature) 변화에 잘 적응하지 못하는 최적화 도구가 됩니다. 일반적으로 DNN의 학습 과정은 초기 단계에서 강한 곡률 이방성 (curvature anisotropy)을 보이는 반면, 후기 단계에서는 이방성이 약한 더 평탄한 영역 (flatter regions)으로 이동하는 경향이 있습니다. 특히, $\ell_2$-norm에 기반한 최적화 도구들은 대개 높은 곡률 방향에 의해 지배되어, 낮은 곡률 방향을 따르는 최적화 도구의 업데이트를 제한함으로써 수렴 속도를 늦추게 됩니다. 반면, $\ell_\infty$-norm에 기반한 최적화 도구들은 동일한 크기의 좌표별 업데이트 (coordinate-wise updates)로 인해 평탄한 영역에서 진동 (oscillations)하기 쉽습니다. $\ell_2$ 및 $\ell_\infty$ norm에 의해 발생하는 이 두 가지 극단적인 사례를 해결하기 위해, 우리는 $p$의 동적인 값을 갖는 새로운 $\ell_p$-norm 스킴을 제안하고 이를 확률적 경사 하강법 (SGD) 및 모멘텀을 이용한 SGD (SGDM)에 통합하여, 더 나은 일반화 성능을 가진 두 가지 새로운 최적화 도구인 $\ell_p$-SGD (LPSGD)와 $\ell_p$-SGDM (LPSGDM)을 도출했습니다. 특히, 결과물인 최적화 도구들은 초기 단계에서는 큰 $p$ ($p>2$)를 활용하여 높은 곡률 방향의 지배력을 억제하고, 이후 코사인 어닐링 (cosine annealing) 전략에 착안하여 $p$를 2를 향해 점진적으로 감소시킴으로써 더 안정적이고 정교한 업데이트를 가능하게 합니다. 우리는 제안된 알고리즘의 이론적 보장을 확립하였으며, LPSGD와 LPSGDM 모두 비볼록 (nonconvex) 설정에서 $O(T^{-1/2})$ 수렴 속도를 달성함을 분석했습니다. VGG-11, ResNet-18, ResNet-50과 같은 다양한 DNN 및 CIFAR-10, CIFAR-100, ImageNet-1K를 포함한 벤치마크 데이터셋을 통해 광범위한 실험을 수행했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기