Dead-Direction Conditioners: 심층 신경망을 위한 게이지 등변 전처리 (Gauge-Equivariant
요약
심층 신경망의 파라미터 대칭성 문제를 해결하기 위해 G-등변 최적화 도구인 Dead-Direction Conditioner(DDC)를 제안합니다. DDC는 최적화 궤적이 대칭 몫 공간을 유지하도록 설계되어, AdamW의 과잉 훈련 붕괴를 방지하고 모델의 용량을 효율적으로 활용합니다.
핵심 포인트
- 심층 신경망의 연속적 대칭성(logit shift, rescaling 등)을 고려한 G-등변 최적화 구현
- AdamW의 과잉 훈련 붕괴 저항 및 검증-훈련 손실 격차 개선
- 비전 트랜스포머에서 여분의 피드포워드 용량을 압축하며 더 낮은 검증 손실 달성
- Muon 기반 최적화와 결합 시 더 깊은 최솟값을 파악하는 성능 증명
심층 신경망 (Deep network)의 손실(loss)은 파라미터의 연속적인 대칭성(continuous symmetries)에 대해 불변(invariant)합니다: 로짓 이동(logit shift), ReLU 재스케일링(rescaling), LayerNorm 스케일(scale), 헤드별 어텐션 회전(per-head attention rotation) 등이 이에 해당합니다. Adam의 좌표별 전처리 도구(per-coordinate preconditioner)는 각 대칭 궤도(symmetry orbit)를 따라 표류하며, 이는 최적화가 이루어지는 대칭 몫 공간(symmetry quotient)에서 궤적을 벗어나게 만들고, 몫 공간이 읽기 쉽게 만들어주는 특이 학습률(singular learning rate)을 흐릿하게 만듭니다. 우리는 기본 최적화 도구(base optimizer)를 $G$-등변(G-equivariant) 최적화 도구로 격상시키는 Dead-Direction Conditioner (DDC)를 구축합니다. 이는 $G$-불변 메트릭(G-invariant metric)의 궤도 분해(orbit decomposition) 내에서 최적화 도구의 상태를 조건화하여, 궤적이 몫 공간 $\bar\Theta= \Theta/G$ 상의 전처리된 경사 흐름(preconditioned gradient flow)을 유지하도록 합니다. 이 구조는 네 가지 아키텍처 게이지(cross-entropy shift, ReLU 및 SwiGLU 재스케일링, LayerNorm 및 RMSNorm 스케일, 그리고 RoPE와 일치하는 헤드별 $O(d_{\rm head})$ 어텐션 회전)를 포함하며, Adam 기반에서 정확히 등변(equivariant)함을 증명하고, 게이지 등변 직교화 도구(gauge-equivariant orthogonaliser)를 통해 Muon 기반과 결합됩니다. 대칭성을 존중하는 것은 최적화 도구가 도달하는 최솟값(minimum)과 그곳에서 측정 가능한 요소를 모두 변화시킵니다. 적합(fit) 지점을 지나 훈련된 언어 모델(language model)에서, DDCAdam은 AdamW가 빠지는 과잉 훈련 붕괴(over-training collapse)에 저항하며, AdamW가 5.88의 차이를 보일 때 0.67의 검증-훈련 손실 격차(validation-train loss gap)를 유지합니다. 또한, AdamW가 65개의 관찰 가능한 레이어 셀 중 7개에서만 읽어낸 데드 디렉션 비율(dead-direction rate)을 DDC는 32개에서 읽어냅니다. 처음부터 훈련된 비전 트랜스포머(vision transformer)는 동일한 조건의 AdamW가 그대로 남겨두는 여분의 피드포워드 용량(feed-forward capacity)을 압축하면서도 더 낮은 검증 손실(2.12 대비 1.71)에 도달합니다. 회전 게이지가 정확히 결합되는 Muon 기반에서, DDCMuon은 일반 Muon이 결코 도달하지 못하는 깊이 24에서의 11개 시드 중 10개를 파악(grok)합니다. 최적화 도구에 내장된 네트워크의 게이지 대칭성(gauge symmetry)은 찾아낸 최솟값을 날카롭게 만들고, 그 최솟값의 기하학적 구조를 궤적이 측정할 수 있는 무언가로 변환합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기