방사형 억제(Radial Suppression)를 통한 알고리즘 일반화 가속화: 지연된 일반화에 대한 기하학적 분석
요약
신경망의 암기-일반화 지연 현상을 은닉 표현의 방사형 팽창 관점에서 기하학적으로 분석한 연구입니다. 방사형 억제(Radial Suppression)를 통해 모델이 각도 업데이트에 집중하게 함으로써 그로킹(grokking) 현상을 가속화할 수 있음을 입증했습니다.
핵심 포인트
- 암기-일반화 지연의 원인을 은닉 표현의 방사형 팽창으로 규명
- 방사형 억제를 통해 데이터 의존적 비등방성 가중치 규제 유도
- 활성화 공간의 방사형 그래디언트 에너지를 억제하여 각도 업데이트 강제
- MLP 및 Transformer에서 그로킹 현상을 최대 6배 가속화
- 10M 규모 nanoGPT의 학습 단계를 절반으로 단축
왜 신경망은 일반화(generalization)가 일어나기 훨씬 전부터 알고리즘 학습 데이터를 암기(memorize)할까요? 본 연구에서는 일반화를 위해 구조화된 저차원 회로(low-dimensional circuits)를 발견해야 하는 작업에서, 암기-일반화 지연(memorization-generalization delay)이 교차 엔트로피 최적화(cross-entropy optimization) 하에서의 은닉 표현(hidden representations)의 방사형 팽창(radial inflation)에 의해 발생함을 보여주는 기하학적 사례 연구를 제시합니다. 우리는 활성화 공간 역학(activation-space dynamics)의 방사형-각도 분해(radial-angular decomposition)를 공식화하고 세 가지 검증 가능한 명제를 도출합니다: (i) 방사형 팽창을 처벌하면 데이터 의존적인 비등방성(anisotropic) 가중치 규제(weight regularization)가 유도된다; (ii) 이는 방사형 그래디언트 에너지(radial gradient energy)를 등방성 무작위 기준치(isotropic random baseline) 아래로 억제하여, 주로 각도 업데이트(angular updates)를 강제한다; (iii) 이는 수렴을 더 평탄한 최솟값(flatter minima) 쪽으로 편향시킨다. 이러한 명제들을 실증적으로 검증하기 위해, 우리는 활성화를 $\sqrt{d}$ 반경의 초구(hypersphere)로 부드럽게 제한하는 단일 하이퍼파라미터 노름 페널티(norm penalty)를 연구합니다. 모듈러 산술(modular arithmetic)에서 이 페널티는 MLP와 Transformer 전반에 걸쳐 그로킹(grokking)을 최대 6배까지 가속화하며, 3자리 덧셈을 수행하는 10M 파라미터 규모의 nanoGPT에 대해 학습 단계를 절반으로 줄입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기