arXiv논문2026. 06. 12. 17:03

클리핑(Clipping)은 분산 및 연합 비동기 SGD를 스트래글러에 강건하게 만듭니다

요약

본 연구는 분산 및 연합 환경에서 비동기 SGD의 수렴성 문제를 다룹니다. 경사 클리핑(gradient clipping)이 업데이트 지연에 따른 부정적 영향을 제거하고, 높은 확률에서의 수렴을 보임을 이론적으로 증명했습니다.

핵심 포인트

경사 클리핑이 비동기 SGD의 최대 지연 의존성을 제거함을 입증함.
서브-와이블 모델 경사 노이즈를 사용하여 딥러닝 경험적 관찰을 일반화함.
비동기 최적화 분야에서 높은 확률에서의 수렴을 최초로 제시함.

현대 머신러닝에서 훈련의 병렬화는 규모를 늘리는 중요한 전략입니다. 가변 스토캐스틱 경사 하강법(ASGD)은 느린 워커를 기다리는 것을 방지하여 사용 가능한 하드웨어를 최대한 활용합니다. 하지만, 일정한 스텝 크기(constant step sizes)를 사용할 경우에도 ASGD의 수렴성은 업데이트 지연이 커지는 것 때문에 느린 워커에 의해 여전히 부정적인 영향을 받습니다. 동시에, 딥러닝 모델의 비동기 훈련에서 경사 클리핑(gradient clipping)이 훈련을 '안정화'한다는 것이 경험적으로 관찰되어 왔습니다. 본 연구에서는 클리핑이 오라클 복잡도(oracle complexity)에서의 최대 지연 의존성을 제거함을 보여줌으로써, 이러한 행동에 대한 이론적 정당성을 제공합니다. 우리는 서브-가우시안 및 서브-지수 분포를 더 무거운 꼬리를 가진 분포로 일반화한 서브-와이블 모델(sub-Weibull model)의 경사 노이즈를 사용하며, 이는 딥러닝에서의 경험적 관찰에 동기 부여되었습니다. 우리는 기댓값(expectation)에서 수렴함을 보이고, 비동기 최적화 분야에서는 처음으로 높은 확률(high probability)에서의 수렴을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

클리핑(Clipping)은 분산 및 연합 비동기 SGD를 스트래글러에 강건하게 만듭니다

요약

핵심 포인트

댓글