arXiv논문2026. 06. 02. 11:49

Polyak 유형의 스텝 사이즈를 이용한 적응형 Sharpness-Aware Minimization: 이론적 근거를 갖춘 스케줄러

요약

SAM 옵티마이저의 학습률 민감도 문제를 해결하기 위해 Polyak 스텝 사이즈를 적용한 새로운 적응형 스케줄러를 제안합니다. 결정론적 및 확률적 설정 모두에서 수렴 속도를 이론적으로 증명하였으며, 실험을 통해 하이퍼파라미터 튜닝 없이도 우수한 성능을 입증했습니다.

핵심 포인트

SAM을 위한 맞춤형 Polyak 적응형 스케줄러 제안
결정론적 설정에서 강볼록 함수에 대한 선형 수렴 증명
확률적 설정에서 최적점 근방까지의 수렴 보장 확립
학습률 튜닝 필요성을 줄이면서 기존 SAM과 대등하거나 우수한 성능 달성

Sharpness-Aware Minimization (SAM)은 머신러닝 (Machine Learning) 모델 학습을 위한 강력하고 널리 채택되는 옵티마이저 (Optimizer)로 자리 잡았습니다. 손실 지형 (Loss landscape)의 날카로움 (Sharpness)을 명시적으로 최소화함으로써, SAM은 강력한 경험적 성능을 제공하는 동시에 일반화 (Generalization) 성능을 종종 향상시킵니다. 그러나 SAM과 그 변형들은 대부분의 학습 알고리즘과 마찬가지로 학습률 (Learning rate) 선택에 민감하며, 이는 일반적으로 광범위한 하이퍼파라미터 튜닝 (Hyperparameter tuning) 또는 사전 정의된 스케줄러 (Schedulers)를 통해 선택됩니다. 본 연구에서는 확률적 경사 하강법 (Stochastic Gradient Descent, SGD)에 대한 확률적 Polyak 스텝 사이즈 (Stochastic Polyak step sizes)의 효과성에 관한 최근의 진전에 착안하여, SAM 방식의 업데이트에 맞춤화된 Polyak 스케줄러를 도출하였으며, 결정론적 (Deterministic) 및 확률적 (Stochastic) 설정 모두에서 새로운 적응형 알고리즘을 제시합니다. 매끄러운 (Smooth) 설정에서, 우리는 결정론적 사례의 강볼록 (Strongly convex) 목적 함수에 대한 선형 수렴 (Linear convergence)과 볼록 (Convex) 목적 함수에 대한 $\mathcal{O}(1/T)$ 수렴 속도를 증명합니다. 확률적 설정에서는 최적점의 근방 (Neighborhood of the optimum)까지 유사한 수렴 보장을 확립합니다. 수치 실험을 통해 제안된 Polyak 스케줄러가 학습률 튜닝의 필요성을 실질적으로 줄이면서도, 세심하게 튜닝된 SAM 베이스라인 (Baselines)과 대등하거나 더 나은 성능을 달성함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Polyak 유형의 스텝 사이즈를 이용한 적응형 Sharpness-Aware Minimization: 이론적 근거를 갖춘 스케줄러

요약

핵심 포인트

댓글