신경 다양체에서의 정보적 좌절: 샤논 병목 현상과 학습 가능성의 한계
요약
심층 신경망의 일반화 원리를 정보 이론, 위상수학, 통계 역학을 결합하여 분석한 연구입니다. 샤논-위상 병목 현상 정리를 통해 학습 가능성의 한계를 정의하고, 그로킹 현상을 엔트로피 방출 관점에서 설명합니다.
핵심 포인트
- 엔트로피 학습 가능성 지평선(ELH) 개념 도입
- 샤논-위상 병목 현상에 따른 정보적 좌절 상태 규명
- 그로킹(grokking)을 엔트로피 방출 과정으로 재해석
- 가중치 엔트로피 관리를 위한 EGD 알고리즘 제안
왜 과매개변수화된(overparameterised) 깊은 신경망이 그렇게 놀라울 정도로 잘 일반화되는지는 머신러닝 이론에서 가장 해결하기 어려운 미해결 질문 중 하나로 남아 있습니다. VC 차원(VC dimension)이나 라데마허 복잡도(Rademacher complexity)와 같은 고전적인 프레임워크는 현대 모델에서 치명적인 과적합(overfitting)을 예측하며, 이론과 현실 사이에 거대한 이론적 격차를 남깁니다. 본 논문에서는 정보 이론(information theory), 위상수학(topology), 그리고 통계 역학(statistical mechanics)을 연결하는 통합 프레임워크를 도입하여 깊은 학습의 근본적인 한계를 파악함으로써 이 간극을 메웁니다. 저희 접근 방식의 핵심은 엔트로피 학습 가능성 지평선(Entropic Learnability Horizon, ELH)입니다. 이는 네트워크가 목표 함수를 진정으로 학습할 수 있으려면 데이터 다양체의 샤논 엔트로피(Shannon entropy)가 함수의 결정 경계의 위상적 엔트로피(topological entropy)보다 앞서야 하며, 이 모든 것이 네트워크 가중치 공간의 von Neumann 엔트로피로 균형을 이루어야 한다는 근본 법칙입니다. 저희는 샤논-위상 병목 현상 정리(Shannon-Topological Bottleneck Theorem)를 수립하여, 목표 경계의 기하학적 복잡성이 이 정보적 지평선을 초과할 때 시스템이 갑작스러운 엔트로피 상전이(entropic phase transition)를 겪는다는 것을 증명합니다. 이때 시스템은 '정보적 좌절(Informational Frustration)' 상태에 빠지는데, 이는 일반화가 열역학적으로 불가능해지는 유리질 같고 경직된 암기 단계입니다. 이 관점을 사용하여, 저희는 신비로운 현상인 '그로킹(grokking)'이 실제로는 병목 현상을 해제하기 위해 가중치가 갑자기 재구성되는 엔트로피 방출(Entropic Release)임을 보여줍니다. 마지막으로, 저희는 이 이론을 실습에 적용하여, 학습 진행 상황을 유지하기 위해 가중치 엔트로피를 동적으로 관리하는 최적화 알고리즘인 엔트로피 경사 하강법(Entropic Gradient Descent, EGD)을 제시합니다. 궁극적으로, 본 연구는 엔트로피를 단순히 불확실성을 추적하는 도구가 아니라, 기계가 학습할 수 있는지 여부를 결정하는 근본적인 물리적 통화로 재정립합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기