arXiv논문2026. 05. 22. 11:29

왜 SGD는 브라운 운동(Brownian Motion)이 아닌가: 확률적 역학(Stochastic Dynamics)에 대한 새로운 관점

요약

SGD의 미니배치 노이즈가 브라운 운동이 아닌 이산적 역학임을 증명하는 연구입니다. 랑제뱅 과정 대신 마스터 방정식을 통해 이산 푸크스-플랑크 방정식을 도출하고, 손실 지형의 평탄도에 따른 파라미터의 확산 양상을 분석합니다.

핵심 포인트

SGD를 랑제뱅 과정이 아닌 이산적 역학으로 재정의
$\eta^2$ 차수의 이산 푸크스-플랑크 방정식 도출
평탄한 방향에서의 분산 증가 및 효과적 확산 현상 발견
CV 및 NLP 모델을 통한 이론적 예측의 경험적 검증

확률적 경사 하강법 (Stochastic Gradient Descent, SGD)은 미니배치 노이즈 (minibatch noise)가 브라운 운동 (Brownian motion)으로 작용한다고 가정하여, 일반적으로 랑제뱅 과정 (Langevin process)으로 모델링됩니다. 그러나 이러한 근사는 연속 시간 극한 (continuous-time limit)과 유한한 학습률 (learning rate)에서의 이산적 (discrete) SGD 업데이트와 일치하지 않는 $\sqrt{\eta}$ 노이즈 스케일링 (noise scaling)에 의존합니다. 본 연구에서는 미니배치 샘플링 (minibatch sampling)에 의해 유도된 변동하는 손실 지형 (fluctuating loss landscape)에서의 결정론적 역학 (deterministic dynamics)으로서 SGD의 대안적인 정식화를 제안합니다. 이산적 업데이트에서 직접 시작하여, 우리는 파라미터 분포 (parameter distribution)에 대한 마스터 방정식 (master equation)을 도출하고, $\eta^2$ 차수에서 표준 랑제뱅 (Langevin) 형태와 다른 이산 푸크스-플랑크 방정식 (discrete Fokker--Planck equation)을 얻습니다. 이 프레임워크를 사용하여, 우리는 손실의 임계점 (critical points) 근처에서의 SGD 역학을 분석합니다. 우리는 그 동작이 평균 헤시안 (mean Hessian)의 고유 기저 (eigenbasis)를 따라 질적으로 구별되는 영역 (regimes)으로 분해됨을 보여줍니다. 특히, 거의 평탄한 방향 (nearly-flat directions)은 정지 분포 (stationary distribution)를 허용하지 않습니다. 즉, 분산 (variance)이 시간이 지남에 따라 증가하며, 이는 학습률에 비례하는 계수를 가진 골짜기 (valleys)를 따른 효과적인 확산 (effective diffusion)에 해당합니다. 우리는 컴퓨터 비전 (computer vision) 및 자연어 처리 (natural language processing)의 신경망 모델 (neural network models)에서 이러한 예측을 뒷받침하는 경험적 증거를 제공하며, 구속된 모드 (confined modes)와 확산 모드 (diffusive modes) 사이의 명확한 질적 분리를 관찰합니다.

AI 자동 생성 콘텐츠

원문 바로가기

왜 SGD는 브라운 운동(Brownian Motion)이 아닌가: 확률적 역학(Stochastic Dynamics)에 대한 새로운 관점

요약

핵심 포인트

댓글