arXiv논문2026. 05. 25. 16:48

희소 특징(Sparse Features)으로부터의 비대칭 스케일링 법칙 (Asymmetric Scaling Laws)

요약

희소 활성화(Sparse Activations) 환경에서의 신경망 스케일링 법칙을 분석한 연구입니다. 희귀 좌표가 테스트 손실에 미치는 영향을 규명하고, 미매개변수화 및 과매개변수화 영역에서의 점근적 손실과 이중 하강 현상을 설명합니다.

핵심 포인트

희소 활성화 모델 특유의 새로운 병목 현상 규명
희소성에 따른 두 개의 뚜렷한 스케일링 지수 발견
보간 임계값 근처에서의 이중 하강(Double-descent) 피크 입증
고정된 계산 예산 하의 최적 데이터셋 크기 도출
비선형 활성화 함수에서도 희소성 효과가 지속됨을 확인

우리는 희소 활성화 (Sparse Activations) 하에서의 신경망 스케일링 법칙 (Neural Scaling Laws) 모델을 소개합니다. 이 모델에서 테스트 손실 (Test Loss)은 훈련 입력에서 관찰되지 않는 희귀한 좌표 (Rare Coordinates)들에 의해 지배되는 경우가 많습니다. 이러한 메커니즘은 밀집 모델 (Dense Models)에는 존재하지 않는 새로운 병목 현상 (Bottleneck)을 유발합니다. 우리는 미매개변수화 (Underparameterized) 및 과매개변수화 (Overparameterized) 영역 모두에서 점근적 모집단 손실 (Asymptotic Population Loss)을 도출하며, 손실이 보간 임계값 (Interpolation Threshold) — 매개변수의 수가 훈련 데이터를 맞추기에 딱 충분한 지점 — 근처에서 이중 하강 (Double-descent) 피크를 보임을 입증합니다. 그 결과, 손실 곡선은 두 개의 뚜렷한 스케일링 지수 (Scaling Exponents) — 하나는 과매개변수화 영역을 위한 것이고, 다른 하나는 미매개변수화 영역을 위한 것 — 에 의해 지배되며, 그 간격은 희소성 (Sparsity)의 정도에 의해 결정됩니다. 또한, 우리는 고정된 계산 예산 (Compute Budgets) 하에서 모델 용량 (Model Capacity)보다 데이터셋 크기를 늘리는 것을 선호하는 계산 최적 프런티어 (Compute-optimal Frontier)를 도출합니다. 우리는 또한 경사 하강법 (Gradient-descent) 역학을 분석하고, 고정된 단계의 경사 하강법이 불안정해질 확률에 대한 스케일링 법칙을 식별합니다. 나아가 우리는 희소성으로 유도된 효과가 비선형 활성화 (Nonlinear Activations) 하에서도 지속됨을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

희소 특징(Sparse Features)으로부터의 비대칭 스케일링 법칙 (Asymmetric Scaling Laws)

요약

핵심 포인트

댓글