arXiv논문2026. 06. 23. 13:34

열린 문제: AdamW는 헤비테일 노이즈(Heavy-Tailed Noise) 하에서 효과적인가?

요약

LLM 학습의 표준인 AdamW 옵티마이저가 헤비테일 노이즈 환경에서 수렴할 수 있는지에 대한 이론적 문제를 다룹니다. 연구는 AdamW의 2차 모멘트 누적기가 큰 경사를 숨길 수 있는 메커니즘을 제시하며 이를 열린 문제로 정의합니다.

핵심 포인트

AdamW의 이론적 기반은 주로 유한 분산 영역에 국한됨
LLM 사전 학습 노이즈는 헤비테일 분포를 따르는 경향이 있음
Lion, Muon 등 부호 기반 옵티마이저의 헤비테일 특성 언급
AdamW의 2차 모멘트 누적기가 수렴에 미치는 영향 분석
코리더 하한 메커니즘을 통한 분모 메모리 문제 제시

AdamW는 대규모 언어 모델(LLMs) 학습을 위한 사실상의 표준 옵티마이저(optimizer)이지만, 그 이면의 이론은 여전히 주로 유한 분산(finite-variance) 영역에 머물러 있습니다. LLM 사전 학습(pretraining)에서의 확률적 경사 노이즈(stochastic gradient noise)가 일반적으로 헤비테일(heavy-tailed) 분포를 따른다는 실증적 증거가 나타남에 따라, 이러한 상황은 점점 더 불만족스러운 상태가 되고 있습니다. 최근 연구에 따르면 Lion 및 Muon과 같은 부호 기반 옵티마이저(sign-based optimizers)가 급격한 헤비테일 비율을 달성하며, AdaGrad 또한 헤비테일 노이즈 하에서 수렴할 수 있음을 보여주었습니다. 그러나 AdamW에 대한 엄격한 수렴 이론은 이 영역에서 아직 확립되지 않았습니다. AdamW가 동일한 헤비테일 가정 하에서 수렴할 수 있을까요, 아니면 AdamW의 2차 모멘트 누적기(second-moment accumulator)가 실질적인 장애물을 생성할까요? 우리는 이를 열린 문제(open problem)로 공식화하고, 긍정적인 가중치 메트릭 벤치마크(weighted-metric benchmark)를 증명하며, 분모의 메모리(denominator memory)가 어떻게 큰 경사(large gradients)를 숨길 수 있는지 보여주는 코리더 하한 메커니즘(corridor lower-bound mechanism)을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

열린 문제: AdamW는 헤비테일 노이즈(Heavy-Tailed Noise) 하에서 효과적인가?

요약

핵심 포인트

댓글