arXiv논문2026. 06. 23. 12:28

최소화 편향(Minimization Bias) 우회: 비평형 상태의 국소 학습 계수(LLC)를 위한 이동 불변 분산

요약

단일 학습 이론(SLT)에서 발생하는 최소화 편향 문제를 해결하기 위해 이동 불변 분산 추정기(SIVE)를 제안합니다. SIVE는 미지의 손실 기준선을 제거하여 비평형 상태에서도 정확한 국소 학습 계수(LLC)를 측정할 수 있게 합니다.

핵심 포인트

기존 LLC 추정기의 체계적인 최소화 편향 문제 지적
분산 기반의 SIVE를 통한 기하학적 손실 변동과 노이즈 분리
비평형 훈련 단계에서도 유효한 국소 LLC 측정 가능
심층 신경망의 구조적 상전이 추적을 위한 온라인 진단 도구 제공

단일 학습 이론 (Singular Learning Theory)은 신경망 손실 지형 (loss landscapes)의 기하학적 구조를 정량화하기 위해 국소 학습 계수 (Local Learning Coefficient, LLC)를 활용합니다. 그러나 평균 에너지 (mean-energy) LLC 추정기는 일반적으로 국소 최솟값 (local minimum)의 추정치인 가산적 손실 기준선 (additive loss baseline)에 명시적으로 의존합니다. 과도적인 비평형 (off-equilibrium) 훈련 단계 동안에는 이 최솟값을 알 수 없으며, 이를 가장 낮은 노이즈가 섞인 미니 배치 손실로 대체하면 기하학적 측정을 왜곡하는 체계적인 최소화 편향 (minimization bias)이 유발됩니다. 본 논문에서는 분산 연산자를 통해 미지의 가산적 기준선을 구조적으로 제거하는 분산 기반의 국소 LLC 프로브인 이동 불변 분산 추정기 (Shift-Invariant Variance Estimator, SIVE)를 제안합니다. 이 이동 불변 관측량 (shift-invariant observable)을 전분산 법칙 (Law of Total Variance)에서 유도된 명시적 보정치와 결합함으로써, SIVE는 기하학적 손실 변동 (geometric loss fluctuations)을 미니 배치 평가 노이즈 (mini-batch evaluation noise)로부터 분리합니다. 해석적으로 다루기 쉬운 토이 모델 (toy models)에 대한 통제된 실험 결과, SIVE는 고정된 평균 추정기 (anchored mean estimators)가 실패하는 영역에서도 기대되는 유한 온도 (finite-temperature) 기하학적 신호를 복원함을 보여줍니다. 심층 신경망 (deep neural networks)에 적용했을 때, SIVE는 훈련 전반에 걸친 구조적 상전이 (structural phase transitions)를 추적하기 위한 견고하고 국소화된 온라인 진단 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

최소화 편향(Minimization Bias) 우회: 비평형 상태의 국소 학습 계수(LLC)를 위한 이동 불변 분산

요약

핵심 포인트

댓글