arXiv논문2026. 06. 29. 10:58

이차 신경망(Quadratic Neural Networks)에서 너비와 데이터가 일반화 스케일링 법칙(Generalization Scaling

요약

이차 신경망(Quadratic Neural Networks)에서 모델 너비와 데이터 크기에 따른 일반화 스케일링 법칙을 분석한 연구입니다. 특징 학습 모델 환경에서 파라미터 수와 샘플 수에 따른 일반화 오차의 변화를 명시적으로 특성화합니다.

핵심 포인트

이차 2층 네트워크 내 $\ell_2$ 정규화된 오차 최소화 분석
샘플 수, 모델 너비, 정규화에 따른 일반화 오차 특성화
파라미터 변화에 따른 뚜렷한 스케일링 영역(Phase diagram) 발견
데이터의 스펙트럼 구조에 따른 거듭제곱 법칙 확인

모델 크기 및 데이터와 함께 성능이 어떻게 확장되는지 이해하는 것은 현대 머신러닝 (Machine Learning)의 핵심적인 문제입니다. 스케일링 법칙 (Scaling Laws)에 관한 기존의 이론적 연구들은 일반적으로 일반화 (Generalization)를 데이터 또는 연산량 (Compute)의 함수로 설명하며, 이는 종종 고정된 특징 (Fixed-feature) 또는 무한 너비 (Infinite-width) 영역 및 온라인 SGD (Online SGD) 환경을 가정합니다. 본 연구에서는 대신 특징 학습 모델 (Feature-learning model)에서 학습 가능한 파라미터 (Trainable parameters)의 수와 샘플 (Samples)의 수에 따라 일반화가 어떻게 확장되는지 연구합니다. 우리는 구조화된 데이터 (Structured data)를 가진 유한 샘플 설정에서 이차 2층 네트워크 (Quadratic two-layer network) 내의 $\ell_2$ 정규화된 경험적 테스트 오차 최소화 ($\ell_2$-regularized empirical test error minimization)를 분석합니다. 이 설정은 샘플 수, 모델 너비 (Model width), 그리고 정규화 (Regularization)의 함수로서 일반화 오차 (Generalization error)를 명시적으로 특성화할 수 있게 해줍니다. 우리의 결과는 파라미터 수가 변화함에 따라 뚜렷한 스케일링 영역 (Scaling regimes)을 갖는 상도 (Phase diagram)를 보여줍니다. 특히, 일반화 오차는 타겟 (Target)의 스펙트럼 구조 (Spectral structure)에 의해 제어되는 데이터 의존적 거듭제곱 법칙 (Data-dependent power laws)을 따릅니다. 나아가 우리는 보간 (Interpolation)의 시작을 포함하여, 각 영역 간의 전이 (Transitions)와 그것이 일반화에 미치는 영향을 특성화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

이차 신경망(Quadratic Neural Networks)에서 너비와 데이터가 일반화 스케일링 법칙(Generalization Scaling

요약

핵심 포인트

댓글