arXiv논문2026. 06. 30. 13:56

Grokking에서의 스케일링 법칙(Scaling Laws)에 관한 확률-기하학적 이론

요약

지연된 일반화(Grokking) 현상의 근저에 있는 메커니즘을 확률-기하학적 이론으로 규명한 연구입니다. 가중치 수축 규제가 유도하는 솔루션 공간의 위상적 구성과 최적화 궤적을 분석하여 Grokking의 스케일링 법칙을 도출했습니다.

핵심 포인트

Grokking의 원인을 솔루션 공간의 쉘-코어 위상적 구성으로 설명
Adam 최적화 역학이 유도하는 파라미터 공간의 기하학적 구조 규명
정지 시간 이론을 통한 암기에서 일반화로의 전이 시간 분석
학습률, 배치 크기, 규제 계수에 따른 Grokking 스케일링 법칙 도출

지연된 일반화(\ie~grokking)는 신경망이 훈련 초기에는 훈련 데이터에 적합(fit)되지만, 종종 급격한 전이를 통해 긴 지연 시간 후에야 일반화(generalize)를 시작하는 현상을 의미합니다. 광범위한 경험적 연구에도 불구하고, 그 근저에 있는 메커니즘은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 먼저 가중치 수축 규제(weight-shrinkage regularization)가 포함된 Adam의 최적화 역학(optimization dynamics)에 의해 유도되는, 도달 가능한 솔루션 공간(reachable solution space)의 쉘-코어(shell--core) 위상적 구성(topological configuration)을 경험적 증거와 함께 이론적으로 규명합니다. 이러한 최적화로 유도된 위상적 구성이 grokking을 발생시킵니다. 모델의 파라미터 공간(parameter space)에서, 무작위 초기화 솔루션들은 암기 솔루션(memorization solutions)의 또 다른 구형 쉘을 둘러싸고 있는 얇은 외부 구형 쉘에 집중되며, 이 암기 솔루션 쉘은 다시 일반화 솔루션(generalization solutions)에 해당하는 코어(core)를 포함합니다. 정지 시간 이론(stopping-time theory)을 활용하여, 우리는 이 위상적 구성의 기하학적 구조와 최적화 궤적(optimization trajectories)이 암기 매니폴드(memorization manifold)를 벗어나 일반화 매니폴드(generalization manifold)의 경계에 처음 도달하는 솔루션 전이 시간을 분석합니다. 우리의 이론적 분석은 학습률(learning rate), 배치 크기(batch size), 그리고 $\ell_2$ 규제 계수(regularization coefficient)에 대한 grokking 스케일링 법칙(scaling laws)을 도출하며, 이는 실험을 통해 추가로 검증되었고 기존 문헌의 결과들을 재현함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Grokking에서의 스케일링 법칙(Scaling Laws)에 관한 확률-기하학적 이론

요약

핵심 포인트

댓글