분포 인지형 강건한 이층 최적화: Two-Timescale Stochastic Approximation에서의 분위수 가이드 Huber 업데이트
요약
헤비테일 노이즈 환경에서 이층 최적화(Bilevel Optimization)의 불안정성을 해결하기 위한 RQ-TTSA 프레임워크를 제안합니다. 이동 분위수를 활용한 적응형 Huber 클리핑을 통해 최적화 기하학을 보존하며 안정적인 수렴을 보장합니다.
핵심 포인트
- 헤비테일 노이즈 하의 이층 최적화 불안정성 해결
- 이동 분위수 기반의 적응형 Huber 스타일 클리핑 도입
- 무한 분산 환경에서 최적의 수렴 속도 이론적 증명
- 강화학습 및 비전 벤치마크에서 SOTA 성능 입증
- 계산 오버헤드 약 2.7%로 매우 낮은 비용
이층 최적화 (Bilevel optimization, BLO)는 계층적 의사결정에 필수적이지만, 헤비테일 (heavy-tailed) 확률적 노이즈 하에서 심각한 불안정성을 겪습니다. 기존의 분산 감소 (variance-reduction) 기술들은 일반적으로 근시안적인 크기 확인 (magnitude checks)에 의존하며, 이는 정보가 담긴 기하학적 신호와 충격적인 이상치 (outliers)를 구분하지 못합니다. 이를 해결하기 위해, 우리는 extbf{RQ-TTSA} (Robust Quantile-guided TTSA)를 제안합니다. 이는 분포 인지형 (distribution-aware) 프레임워크로, 과거의 그래디언트 버퍼 (gradient buffers)를 활용하여 이동 분위수 (rolling quantiles)를 추정함으로써 적응형 Huber 스타일 클리핑 (Huber-style clipping)을 수행하며, 유효 분산을 엄격하게 제한하는 동시에 국소적 최적화 기하학 (local optimization geometry)을 효과적으로 보존합니다. 이론적으로, 우리는 무한 분산 노이즈 ($p imes (1,2]$) 환경의 비볼록-강볼록 (nonconvex-strongly convex) 가정 하에서 분위수 가이드 TTSA에 대한 수렴 분석을 제공하며, 헤비테일 파라미터에 대한 최적의 의존성을 회복하는 $\mathcal{O}(T^{-\frac{p-1}{3p-2}})$의 수렴 속도를 도출합니다. 실험적으로, 이질적인 비전 벤치마크, 모멘텀 포이즈닝 (momentum poisoning) 하의 동적 게임, 그리고 오프라인 강화학습 (offline reinforcement learning)을 아우르는 6가지 다양한 작업에 걸쳐, RQ-TTSA는 발산 스파이크 (divergence spikes)를 제거하고 안정적인 수렴을 보장함으로써 최첨단 (state-of-the-art) 베이스라인들을 일관되게 능가합니다. 우리의 방법은 하이퍼파라미터 변화에 대해 상당한 강건성을 보여주며, 무시할 수 있는 수준의 계산 오버헤드 ($\approx 2.7%$ 증가)만을 발생시켜, 분포 인지형 그래디언트 제어가 신뢰할 수 있는 이층 학습을 위한 실용적이고 필수적인 구성 요소임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기