방사형 억제(Radial Suppression)를 통한 알고리즘 일반화 가속화: 지연된 일반화에 대한 기하학적 분석

왜 신경망은 일반화(generalization)가 일어나기 훨씬 전부터 알고리즘 학습 데이터를 암기(memorize)할까요? 본 연구에서는 일반화를 위해 구조화된 저차원 회로(low-dimensional circuits)를 발견해야 하는 작업에서, 암기-일반화 지연(memorization-generalization delay)이 교차 엔트로피 최적화(cross-entropy optimization) 하에서의 은닉 표현(hidden representations)의 방사형 팽창(radial inflation)에 의해 발생함을 보여주는 기하학적 사례 연구를 제시합니다. 우리는 활성화 공간 역학(activation-space dynamics)의 방사형-각도 분해(radial-angular decomposition)를 공식화하고 세 가지 검증 가능한 명제를 도출합니다: (i) 방사형 팽창을 처벌하면 데이터 의존적인 비등방성(anisotropic) 가중치 규제(weight regularization)가 유도된다; (ii) 이는 방사형 그래디언트 에너지(radial gradient energy)를 등방성 무작위 기준치(isotropic random baseline) 아래로 억제하여, 주로 각도 업데이트(angular updates)를 강제한다; (iii) 이는 수렴을 더 평탄한 최솟값(flatter minima) 쪽으로 편향시킨다. 이러한 명제들을 실증적으로 검증하기 위해, 우리는 활성화를 $\sqrt{d}$ 반경의 초구(hypersphere)로 부드럽게 제한하는 단일 하이퍼파라미터 노름 페널티(norm penalty)를 연구합니다. 모듈러 산술(modular arithmetic)에서 이 페널티는 MLP와 Transformer 전반에 걸쳐 그로킹(grokking)을 최대 6배까지 가속화하며, 3자리 덧셈을 수행하는 10M 파라미터 규모의 nanoGPT에 대해 학습 단계를 절반으로 줄입니다.

Insights

방사형 억제(Radial Suppression)를 통한 알고리즘 일반화 가속화: 지연된 일반화에 대한 기하학적 분석

요약

핵심 포인트

댓글

이번 분기에 AI가 현실적으로 대신 처리해 줄 수 있는 반복적인 행정 업무는 무엇인가?

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유