직교 데이터에서의 완만한 과매개변수화된 ReLU 네트워크: 점진적 학습 및 암묵적 편향 (Implicit Bias)
요약
직교 데이터와 작은 초기값을 가진 2층 ReLU 네트워크의 경사 흐름 역학을 분석한 연구입니다. 초기화 규모가 작을 때 발생하는 안장점-안장점 점프 과정을 통해 뉴런이 점진적으로 활성화되는 현상을 증명했습니다.
핵심 포인트
- 완만한 과매개변수화 설정에서 점진적 학습 현상 규명
- 안장점-안장점 점프 과정을 통한 뉴런 활성화 메커니즘 증명
- 학습된 보간기가 최소 $\ell_2$-노름 보간기와 유사한 스케일을 가짐을 입증
- 네트워크 너비가 $\log(n)$ 수준일 때 데이터 보간 가능성 확인
신경망 (Neural networks)의 성공적인 학습은 1차 최적화 방법 (First order optimization methods)의 사용에 달려 있지만, 이러한 방법들에 대한 이론적 특성 규명은 여전히 불완전합니다. 이는 특히 완만한 과매개변수화 (Mild overparameterization)가 이루어진 설정에서 더욱 그러합니다. 본 연구에서는 직교하는 학습 데이터 (Orthogonal training data)와 작은 초기값 (Small initialization)을 가진 2층 ReLU 네트워크의 경사 흐름 역학 (Gradient flow dynamics)을 연구합니다. 우리는 초기화 규모가 0으로 수렴함에 따라 한계 흐름 (Limiting flow)이 안장점-안장점 점프 과정 (Saddle-to-saddle jump process)으로 수렴함을 증명하며, 이를 통해 각 안장점 (Saddle)에서 새로운 뉴런이 활성화되는 점진적 학습 (Incremental learning) 현상을 밝혀냅니다. 이 분석은 네트워크 너비가 $m$, 학습 샘플 수가 $n$일 때 $m \gtrsim \log(n)$이 되는 즉시 네트워크가 높은 확률로 학습 데이터를 보간 (Interpolate)한다는 Dana et al. (2025, arXiv:2502.16977)의 기존 결과를 재현합니다. 이러한 점진적 과정의 특성화를 통해 우리는 새로운 암묵적 편향 (Implicit bias) 결과를 도출할 수 있습니다: 학습된 보간기 (Interpolator)는 $\sqrt{n}$의 스케일을 갖는 제곱 $\ell_2$-노름 (Squared $\ell_2$-norm)을 가지며, 이는 최소 $\ell_2$-노름 보간기 (Minimal $\ell_2$-norm interpolator)와 상수 배 차이 이내에 있습니다. 더 넓게는, 본 연구는 ReLU 네트워크에 대한 점진적 학습 과정에 대한 최초의 엄밀한 증명을 제공하며, 완만하게 과매개변수화된 네트워크가 최적 보간기 (Optimal interpolator)와 동일한 차수의 복잡도를 가진 보간 솔루션 (Interpolating solutions)으로 수렴할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기