HORST: 희소 Transformer 학습을 위한 옵티마이저 기하학의 합성
요약
표준 옵티마이저가 가진 안정성 중심의 $L_{\infty}$ 편향 문제를 해결하기 위해, 옵티마이저 단계의 합성을 통해 $L_1$ 희소성 편향을 유도하는 HORST를 제안합니다. HORST는 비가환 연산자 분석을 통해 안정성과 희소성을 동시에 확보하며, 시각 및 언어 작업 모두에서 AdamW보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 표준 적응형 옵티마이저의 $L_{\infty}$ 편향과 희소성에 필요한 $L_1$ 편향 간의 상충 관계 해결
- 비가환 연산자(non-commutative operators)를 활용한 옵티마이저 단계의 합성 방식 제안
- 쌍곡 미러 맵(hyperbolic mirror map)을 통해 안정성을 유지하면서 $L_1$ 희소성 유도
- Transformer 모델의 시각 및 언어 작업에서 AdamW 대비 높은 희소성 수준의 성능 우위 확인
Transformer를 희소화(Sparsifying)하는 것은 여전히 근본적인 과제로 남아 있습니다. 표준 옵티마이저(Optimizer)들은 희소성을 촉진하는 동시에 학습 안정성을 유지하는 데 실패하기 때문입니다. 효과적인 적응형 옵티마이저(Adaptive optimizer)들은 안정성을 선호하는 암묵적인 $L_{\infty}$ 편향(bias)을 보이지만, 희소성을 위해서는 $L_1$ 편향이 필요합니다. 희소성을 통합하기 위해, 우리는 옵티마이저 단계의 합성을 제안하며, 이를 비가환 연산자(non-commutative operators)로 설정하여 그들의 최적화 기하학(optimization geometry)을 원칙적인 방식으로 분석하고 결합합니다. 이를 통해 HORST (Hyperbolic Operator for Robust Sparse Training)를 도출하였으며, 이는 적응형 방법론으로부터 안정성을 상속받는 동시에 쌍곡 미러 맵(hyperbolic mirror map)을 통해 $L_1$ 희소성 편향을 유도하는 모듈형 옵티마이저입니다. 우리의 실험은 시각(vision) 및 언어(language) 작업 모두에서 Transformer의 희소 학습에 대한 HORST의 유용성을 입증합니다. HORST는 모든 희소성 수준에서 AdamW 베이스라인을 일관되고 유의미하게 능가하며, 높은 희소성 수준에서 큰 이득을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기