Grokking에서의 스케일링 법칙(Scaling Laws)에 관한 확률-기하학적 이론
요약
지연된 일반화(Grokking) 현상의 근저에 있는 메커니즘을 확률-기하학적 이론으로 규명한 연구입니다. 가중치 수축 규제가 유도하는 솔루션 공간의 위상적 구성과 최적화 궤적을 분석하여 Grokking의 스케일링 법칙을 도출했습니다.
핵심 포인트
- Grokking의 원인을 솔루션 공간의 쉘-코어 위상적 구성으로 설명
- Adam 최적화 역학이 유도하는 파라미터 공간의 기하학적 구조 규명
- 정지 시간 이론을 통한 암기에서 일반화로의 전이 시간 분석
- 학습률, 배치 크기, 규제 계수에 따른 Grokking 스케일링 법칙 도출
지연된 일반화(\ie~grokking)는 신경망이 훈련 초기에는 훈련 데이터에 적합(fit)되지만, 종종 급격한 전이를 통해 긴 지연 시간 후에야 일반화(generalize)를 시작하는 현상을 의미합니다. 광범위한 경험적 연구에도 불구하고, 그 근저에 있는 메커니즘은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 먼저 가중치 수축 규제(weight-shrinkage regularization)가 포함된 Adam의 최적화 역학(optimization dynamics)에 의해 유도되는, 도달 가능한 솔루션 공간(reachable solution space)의 쉘-코어(shell--core) 위상적 구성(topological configuration)을 경험적 증거와 함께 이론적으로 규명합니다. 이러한 최적화로 유도된 위상적 구성이 grokking을 발생시킵니다. 모델의 파라미터 공간(parameter space)에서, 무작위 초기화 솔루션들은 암기 솔루션(memorization solutions)의 또 다른 구형 쉘을 둘러싸고 있는 얇은 외부 구형 쉘에 집중되며, 이 암기 솔루션 쉘은 다시 일반화 솔루션(generalization solutions)에 해당하는 코어(core)를 포함합니다. 정지 시간 이론(stopping-time theory)을 활용하여, 우리는 이 위상적 구성의 기하학적 구조와 최적화 궤적(optimization trajectories)이 암기 매니폴드(memorization manifold)를 벗어나 일반화 매니폴드(generalization manifold)의 경계에 처음 도달하는 솔루션 전이 시간을 분석합니다. 우리의 이론적 분석은 학습률(learning rate), 배치 크기(batch size), 그리고 $\ell_2$ 규제 계수(regularization coefficient)에 대한 grokking 스케일링 법칙(scaling laws)을 도출하며, 이는 실험을 통해 추가로 검증되었고 기존 문헌의 결과들을 재현함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기