arXiv논문2026. 06. 15. 07:53

확률적 경사 하강법(SGD)의 매개변수 노이즈 주입에 단순성이 충분하다

요약

본 연구는 심층 신경망 훈련에 노이즈를 주입하는 기법을 조사하며, SGD의 매개변수 노이즈 주입 방식을 다룹니다. 핵심적으로, 복잡한 교란 설계나 정교한 노이즈 매개변화보다 단순하고 경량화된 등방성 노이즈가 충분히 좋은 성능과 일반화 이점을 제공함을 보여줍니다.

핵심 포인트

노이즈 주입은 훈련 및 일반화 성능 향상에 효과적인 기법이다.
복잡한 교란 설계 없이도 단순한 등방성 노이즈만으로 충분하다.
단순성이 최적화 및 일반화 이점을 얻는 데 핵심 요소임을 시사한다.

최적화 과정에 노이즈를 주입하는 것은 심층 신경망의 훈련 및 일반화 성능을 향상시키는 잘 알려진 기법입니다. 하지만 기존 접근 방식의 광범위함에도 불구하고, 실제적으로 어떤 설계 선택이 정말 중요한지는 여전히 불분명합니다. 본 연구에서는 확률적 경사 하강법(SGD)을 위한 매개변수 노이즈 주입을 조사하며, 두 가지 핵심 질문에 초점을 맞춥니다. 첫째는 미니 배치 훈련에서 각 학습 예제와 그 자체의 교란(perturbation)을 효율적으로 쌍으로 만드는 방법이며, 둘째는 정교한 노이즈 매개변수화 또는 다중 샘플 경사 평균화가 단순한 대안보다 의미 있는 이득을 가져오는지 여부입니다. 첫 번째 질문에 답하기 위해, 우리는 배치 계산을 깨지 않으면서 예제별 노이즈 주입을 가능하게 하는 선형 계층의 분포적 항등식(distributional identity)을 활용합니다. 두 번째 질문에 답하기 위해, 우리는 CIFAR100에서 다양한 노이즈 수준에 걸쳐 여러 대각 가우시안 매개변수화와 등방성 기준선(isotropic baseline)을 체계적으로 비교했습니다. 우리의 결과는 단순하고 경량화된 전략들, 즉 업데이트 단계당 단일 교란 순전파를 사용하는 등방성 노이즈가 더 복잡한 방식의 대부분의 이점을 회복시킨다는 것을 일관되게 보여줍니다. 이러한 발견은 매개변수 노이즈 주입에 있어 단순성이 충분하며, 실무자들이 노이즈 SGD의 최적화 및 일반화 이점을 얻기 위해 정교한 교란 설계를 할 필요는 없음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

확률적 경사 하강법(SGD)의 매개변수 노이즈 주입에 단순성이 충분하다

요약

핵심 포인트

댓글