이산적으로 탄생하여 매끄럽게 만들어지다: 얕은 신경망의 변분 공식화 (Variational Formulation of Shallow
요약
얕은 신경망의 이산적 훈련 문제를 연속 변분 대리 모델로 대체하는 새로운 패러다임을 제안합니다. Sobolev 공간 내 파라미터 밀도를 활용하여 최적화 과정을 단일 선형 시스템 해결로 단순화하고, 일반화 오차 제어 및 연속체 최적값 달성 과정을 수학적으로 증명합니다.
핵심 포인트
- 이산적 훈련 문제를 연속 변분 대리 모델로 전환
- 반복적 최적화 없이 단일 선형 시스템으로 최적 파라미터 밀도 도출
- 기존 Wasserstein/Mean-Field 방식 대비 높은 정칙성 확보
- NTK와 특징 학습 영역 사이의 간극을 메우는 프레임워크 제공
- 유한 폭 네트워크의 연속체 최적값 수렴률 증명
신경망은 매우 효과적임에도 불구하고, 그 기저에 깔린 최적화 원리는 비볼록 지형(non-convex landscapes)과 확률적 휴리스틱(stochastic heuristics)으로 특징지어지며 이론적으로 여전히 파악하기 어렵습니다. 본 연구에서는 얕은 신경망(shallow neural networks)의 이산적 훈련 문제를 잘 정의된 연속 변분 대리 모델(continuum variational surrogate)로 대체함으로써 패러다임의 전환을 제안합니다. 우리는 가중 Sobolev 공간(weighted Sobolev spaces) 내의 파라미터 밀도(parameter densities)에 대한 $\lambda$-볼록 범함수($\lambda$-convex functionals) 군을 식별하고, 이러한 변분 문제들이 전역적으로 잘 정의되어 있으며(well-posed), 안정적이고, 예상치 못한 거의 $C^3$ 급의 정칙성(regularity)을 보임을 증명합니다. 제한된 정칙성과 이산화 문제에 자주 직면하는 기존의 Wasserstein 기반 또는 평균장(Mean-Field) 접근 방식과 달리, 우리의 공식화는 타원형 정칙성(elliptic regularity)과 볼록 분석(convex analysis)에 직접 접근할 수 있게 해줍니다. 이를 통해 우리는 반복적인 최적화 과정을 완전히 건너뛰고, 단일 선형 시스템을 해결함으로써 최적의 파라미터 밀도를 얻을 수 있음을 증명합니다. 우리는 정칙화 파라미터(regularization parameter)에 대해 $1/\alpha$ 비율의 명시적인 일반화 오차 제어(generalization error controls)를 확립하였으며, 크기가 $N$인 유한 폭 네트워크(finite-width networks)가 $O(1/N)$ 비율로 연속체 최적값(continuum optimum)을 달성함을 증명합니다. 이러한 관점은 신경 탄젠트 커널 (NTK, Neural Tangent Kernel)과 특징 학습(feature-learning) 영역 사이의 간극을 메우며, 변분법(variational calculus)의 관점을 통해 과잉 매개변수화(over-parameterization)를 이해하기 위한 원칙적인 프레임워크를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기