최소한의 오버헤드로 수렴 속도를 높이는 가속 경사 하강법
요약
본 논문은 딥러닝의 비볼록 최적화 문제를 해결하기 위해 국소 곡률을 활용하는 CT-AGD(Curvature-Tuned Accelerated Gradient Descent)를 제안합니다. CT-AGD는 유한 차분 몫을 사용하여 1차 최적화 방법을 가속화하며, 미니 배치 학습의 노이즈와 편향을 완화하는 휴리스틱을 포함합니다. 실험 결과, Adam과 유사한 오버헤드로 학습 에포크를 평균 33% 단축하면서도 기존 방식과 동일한 정확도를 달성했습니다.
핵심 포인트
- CT-AGD는 유한 차분 몫을 통해 국소 곡률을 포착하여 1차 최적화 방법을 가속화함
- 확률적 미니 배치 학습에서 발생하는 노이즈와 편향을 완화하는 휴리스틱 적용
- Adam과 유사한 수준의 낮은 저장 공간 및 계산 오버헤드 유지
- 기존 베이스라인 대비 평균 33%의 학습 에포크 감소 효과 입증
본 논문에서는 딥러닝 (Deep Learning) 학습 작업의 비볼록 최적화 (Non-convex Optimization) 문제를 위한 최적화 방법인 CT-AGD (Curvature-Tuned Accelerated Gradient Descent)를 제시합니다. CT-AGD는 유한 차분 몫 (Finite-difference quotients)을 사용하여 국소 곡률 (Local curvature)을 명시적으로 포착함으로써 1차 방법 (First-order methods)을 가속화하는 일반적인 부스팅 (Boosting) 절차이며, 확률적 미니 배치 (Stochastic mini-batch) 학습으로 인해 발생하는 노이즈와 편향 (Bias)을 완화하기 위한 휴리스틱 (Heuristics) 개발을 포함합니다. CT-AGD는 Adam과 같은 적응형 경사 방법 (Adaptive gradient methods)과 유사한 수준의 저장 공간 및 계산 오버헤드 (Computational overhead)를 가집니다. 광범위한 실험을 통해 CT-AGD가 베이스라인 1차 방법들과 동일한 수준의 정확도를 달성하면서도, 필요한 학습 에포크 (Training epochs)를 평균 33% 감소시킨다는 것을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기