arXiv논문2026. 06. 23. 12:25

분포 인지형 강건한 이층 최적화: Two-Timescale Stochastic Approximation에서의 분위수 가이드 Huber 업데이트

요약

헤비테일 노이즈 환경에서 이층 최적화(Bilevel Optimization)의 불안정성을 해결하기 위한 RQ-TTSA 프레임워크를 제안합니다. 이동 분위수를 활용한 적응형 Huber 클리핑을 통해 최적화 기하학을 보존하며 안정적인 수렴을 보장합니다.

핵심 포인트

헤비테일 노이즈 하의 이층 최적화 불안정성 해결
이동 분위수 기반의 적응형 Huber 스타일 클리핑 도입
무한 분산 환경에서 최적의 수렴 속도 이론적 증명
강화학습 및 비전 벤치마크에서 SOTA 성능 입증
계산 오버헤드 약 2.7%로 매우 낮은 비용

이층 최적화 (Bilevel optimization, BLO)는 계층적 의사결정에 필수적이지만, 헤비테일 (heavy-tailed) 확률적 노이즈 하에서 심각한 불안정성을 겪습니다. 기존의 분산 감소 (variance-reduction) 기술들은 일반적으로 근시안적인 크기 확인 (magnitude checks)에 의존하며, 이는 정보가 담긴 기하학적 신호와 충격적인 이상치 (outliers)를 구분하지 못합니다. 이를 해결하기 위해, 우리는 extbf{RQ-TTSA} (Robust Quantile-guided TTSA)를 제안합니다. 이는 분포 인지형 (distribution-aware) 프레임워크로, 과거의 그래디언트 버퍼 (gradient buffers)를 활용하여 이동 분위수 (rolling quantiles)를 추정함으로써 적응형 Huber 스타일 클리핑 (Huber-style clipping)을 수행하며, 유효 분산을 엄격하게 제한하는 동시에 국소적 최적화 기하학 (local optimization geometry)을 효과적으로 보존합니다. 이론적으로, 우리는 무한 분산 노이즈 ($p imes (1,2]$) 환경의 비볼록-강볼록 (nonconvex-strongly convex) 가정 하에서 분위수 가이드 TTSA에 대한 수렴 분석을 제공하며, 헤비테일 파라미터에 대한 최적의 의존성을 회복하는 $\mathcal{O}(T^{-\frac{p-1}{3p-2}})$의 수렴 속도를 도출합니다. 실험적으로, 이질적인 비전 벤치마크, 모멘텀 포이즈닝 (momentum poisoning) 하의 동적 게임, 그리고 오프라인 강화학습 (offline reinforcement learning)을 아우르는 6가지 다양한 작업에 걸쳐, RQ-TTSA는 발산 스파이크 (divergence spikes)를 제거하고 안정적인 수렴을 보장함으로써 최첨단 (state-of-the-art) 베이스라인들을 일관되게 능가합니다. 우리의 방법은 하이퍼파라미터 변화에 대해 상당한 강건성을 보여주며, 무시할 수 있는 수준의 계산 오버헤드 ($\approx 2.7%$ 증가)만을 발생시켜, 분포 인지형 그래디언트 제어가 신뢰할 수 있는 이층 학습을 위한 실용적이고 필수적인 구성 요소임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

분포 인지형 강건한 이층 최적화: Two-Timescale Stochastic Approximation에서의 분위수 가이드 Huber 업데이트

요약

핵심 포인트

댓글