arXiv논문2026. 05. 13. 04:11

분산형 SGD에서 높은 확률의 일반화(Generalization) 공개

요약

본 기사는 분산형 확률적 경사 하강법(D-SGD)의 일반화 성능에 관한 연구입니다. 기존 연구들이 기대값 기반으로 제한된 높은 확률 일반화 경계를 제시했던 것과 달리, 본 논문은 D-SGD가 달성할 수 있는 더 강력한 높은 확률 보장치를 제안합니다. 특히, 단일 작업자(D-SGD $ o$ SGD)의 경우 최적의 높은 확률 일반화 경계가 $O(rac{1}{ ext{root}2 n} ext{log}(1/ ext{δ}))$임을 밝히며, 기존 연구와의 간극을 메우는 데 초점을 맞추고 있습니다.

핵심 포인트

D-SGD는 대규모 분산 학습 환경에서 효율적인 방법론이다.
기존 일반화 연구들은 주로 기대값(expectation)에 기반하여 성능 한계를 제시했다.
본 연구는 D-SGD의 높은 확률(high probability) 일반화 경계에 초점을 맞추어 기존 간극을 해소한다.
단일 작업자 환경에서 최적의 높은 확률 일반화 경계는 $O(rac{1}{ ext{root}2 n} ext{log}(1/ ext{δ}))$이다.

분산형 확률적 경사 하강법 (Decentralized stochastic gradient descent, D-SGD)은 대규모 분산 학습을 위한 효율적인 방법입니다. 기존의 일반화 연구들은 주로 기대값 결과에 초점을 맞추어, $ ext{O}ig(rac{1}{ ext{δ}
oot{2}m n}ig)$ 수준으로 제한된 비율을 달성했습니다. 여기서 $ ext{δ}$는 신뢰도 매개변수(confidence parameter), $m$은 작업자(worker)의 수, 그리고 $n$은 샘플 크기입니다. $m=1$일 때, D-SGD는 전통적인 SGD로 축소되며, 이 경우 최적의 높은 확률 일반화 경계는 $ ext{O}ig(rac{1}{
oot{2}n} ext{log}(1/ ext{δ})ig)$입니다. 이러한 불일치(discrepancy)는 SGD와 D-SGD에 대한 높은 확률 보장 사이에 간극이 있음을 보여줍니다. 이 간극을 메우기 위해, 우리는 (내용 생략)

AI 자동 생성 콘텐츠

원문 바로가기

분산형 SGD에서 높은 확률의 일반화(Generalization) 공개

요약

핵심 포인트

댓글