본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 00:26

딥 네트워크의 스펙트럴 다이내믹스: 피처 학습, 아웃라이어 이탈 및 학습률 전이

요약

본 논문은 확률적 경사 하강법으로 학습되는 넓은 신경망의 숨겨진 가중치 스펙트럼 변화를 연구하며, 특히 벌크(bulk)와 아웃라이어(outlier) 스펙트럴 다이내믹스를 공동 추적하는 2단계 동역학 평균장 이론(DMFT)을 개발했습니다. 이 프레임워크는 무한 너비의 비선형 네트워크와 고차원 극한의 깊은 선형 네트워크 두 가지 설정에 적용되었습니다. 연구 결과, 아웃라이어 스펙트럼이 훈련 시간, 네트워크 너비, 출력 스케일 등 다양한 매개변수에 따라 어떻게 진화하는지 예측할 수 있음을 보여줍니다.

핵심 포인트

  • 신경망의 가중치 스펙트럼 변화를 분석하기 위해 2단계 동역학 평균장 이론(DMFT)을 개발했습니다.
  • 이 이론은 네트워크의 벌크와 아웃라이어 스펙트럴 다이내믹스를 동시에 추적할 수 있습니다.
  • 연구는 무한 너비 비선형 네트워크와 고차원 극한 깊은 선형 네트워크 두 가지 환경에 적용되었습니다.
  • 아웃라이어 스펙트럼의 진화 양상을 훈련 시간, 너비, 초기화 분산 등 다양한 매개변수 변화에 따라 예측할 수 있습니다.

우리는 (확률적) 경사 하강법으로 훈련되는 넓은 신경망에서 숨겨진 가중치 스펙트럼의 진화를 연구합니다. 우리는 스파이크 방향이 무작위 벌크(bulk)에 통계적으로 의존하는 스파이크 앙상블의 벌크 및 아웃라이어 스펙트럴 다이내믹스를 공동으로 추적하는 2단계 동역학 평균장 이론 (DMFT)을 개발합니다. 이 프레임워크를 두 가지 설정에 적용합니다: (1) 평균장/$ ext{μ}$P 스케일링에서의 무한 너비 비선형 네트워크와 (2) 너비, 입력 차원 및 샘플 크기가 고정된 비율로 발산하는 비례적 고차원 극한에서의 깊은 선형 네트워크입니다. 우리의 이론은 아웃라이어가 훈련 시간, 너비, 출력 스케일 및 초기화 분산에 따라 어떻게 진화하는지 예측합니다. 깊은 선형 네트워크에서 $ ext{μ}$P는

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0