신경 탄젠트 커널 (NTK) 뒤의 수학
요약
본 기사는 과매개변수화된(over-parameterized) 신경망이 뛰어난 일반화 성능을 보이는 현상을 탐구합니다. 특히, 신경 탄젠트 커널(NTK)은 경사 하강법을 통한 훈련 과정에서 신경망의 진화를 설명하는 핵심적인 도구입니다. 이 글에서는 NTK의 정의와 동기 부여를 깊이 있게 다루고, 무한 너비의 신경망에 대한 결정론적 수렴 증명을 통해 그 이론적 배경을 제시합니다.
핵심 포인트
- 과매개변수화된 신경망은 매개변수가 데이터 포인트보다 많음에도 불구하고 좋은 일반화 성능을 보인다.
- 신경 탄젠트 커널(NTK)은 경사 하강법 훈련 중 신경망의 진화를 설명하는 이론적 틀이다.
- NTK는 충분히 넓은 너비의 신경망이 전역 최소점에 일관되게 수렴하는 이유에 대한 통찰을 제공한다.
- 본 글은 NTK를 정의하고, 무한 너비 신경망에서 결정론적 수렴을 증명하여 이론적 깊이를 더한다.
신경망은 과매개변수화 (over-parameterized) 로 잘 알려져 있으며, 종종 테스트 데이터셋에서 훌륭한 일반화 성능을 보이며 근사 영 (near-zero) 의 학습 손실로 데이터를 쉽게 적합시킬 수 있습니다. 모든 매개변수가 무작위로 초기화되어 있음에도 불구하고, 최적화 과정은 일관되게 유사하게 좋은 결과를 이끌어냅니다. 그리고 이는 모델 매개변수의 수가 학습 데이터 포인트의 수를 초과할 때도 사실입니다. 신경 탄젠트 커널 (Neural Tangent Kernel, NTK) (Jacot et al. 2018) 은 경사 하강법 (gradient descent) 을 통한 신경망의 훈련 중 진화를 설명하기 위한 커널입니다. 이는 충분한 너비 (width) 를 가진 신경망이 경험적 손실 (empirical loss) 을 최소화하도록 훈련될 때 전역 최소점 (global minimum) 에 일관되게 수렴하는 이유에 대한 통찰력을 제공합니다. 이 글에서는 NTK 의 동기 부여와 정의를 깊이 있게 살펴보고, 무한 너비 (infinite width) 를 가진 신경망의 다른 초기화에서 NTK 를 특성화함으로써 결정론적 수렴 (deterministic convergence) 에 대한 증명을 수행할 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Lilian Weng Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기