arXiv논문2026. 06. 30. 14:14

신경망 학습 역학의 스칼라 표현 (Scalar Representations of Neural Network Training Dynamics)

요약

신경망 학습 궤적을 시계열 네트워크의 스칼라 임베딩을 통해 저차원으로 표현하는 연구를 소개합니다. MNIST 실험을 통해 임베딩이 학습률 민감도와 리아푸노프 지수 등 주요 역학적 특징을 효과적으로 보존함을 입증했습니다.

핵심 포인트

고차원 학습 궤적을 저차원 스칼라 임베딩으로 변환 가능
초기 조건 민감도 및 최대 리아푸노프 지수 재구성 성공
임베딩을 통한 특성 시간(Characteristic Time) 정의
점근적 학습 상태의 통계적 조직화 및 분포 확인

인공 신경망 (Artificial Neural Networks)에서의 학습은 고차원 손실 지형 (Loss Landscape)을 통해 진화하는 궤적 (Trajectory)으로 볼 수 있습니다. 그러나 학습 가능한 매개변수 (Parameters)의 수가 매우 많기 때문에 이러한 역학 (Dynamics)을 직접 분석하는 것은 매우 어렵습니다. 본 연구에서는 이러한 학습 궤적을 시계열 네트워크 (Temporal Networks)로 취급하고, 최근 제안된 시계열 네트워크의 스칼라 임베딩 (Scalar Embedding) 전략을 적용합니다. 우리는 이러한 스칼라 임베딩이 신경망 학습 역학의 의미 있는 저차원 표현 (Low-dimensional Representation)을 제공하는지 조사합니다. MNIST 분류 작업에 대해 학습된 다층 퍼셉트론 (Multilayer Perceptron)을 사용하여, 우리는 임베딩이 특정 학습률 (Learning Rate) 영역에서의 초기 조건에 대한 민감도 (Sensitivity to Initial Conditions)의 출현과 네트워크의 최대 리아푸노프 지수 (Maximum Lyapunov Exponent)의 정확한 재구성을 포함하여, 원래 매개변수 공간에서 관찰되는 주요 역학적 특징들을 보존함을 보여줍니다. 그런 다음 우리는 임베딩된 스칼라 궤적을 사용하여 리아푸노프 시간 (Lyapunov Time)과 유사한 특성 시간 (Characteristic Time)을 정의하며, 이 시간 이후에는 초기에 가까웠던 임베딩된 궤적들 사이의 지수적 분리 (Exponential Separation)가 포화됩니다. 이 특성 시간은 원래의 고차원 시스템에서 초기에 가까웠던 네트워크 궤적들 사이의 전형적인 탈상관 시간 (Decorrelation Time)을 포착합니다. 마지막으로, 우리는 임베딩된 공간에서 정의된 간격 관측량 (Spacing Observable)을 통해 점근적 학습 상태 (Asymptotic Training States)의 통계적 조직화를 조사합니다. 우리는 재조정된 점근적 간격 (Rescaled Asymptotic Spacings)의 분포가 초기 조건에 관계없이 공통된 형태로 붕괴 (Collapse)되며, 왜도 로그 정규 분포 (Skew Lognormal Distribution)와 일치한다는 것을 발견했습니다. 종합적으로, 우리의 결과는 스칼라 저차원 임베딩이 신경망 최적화 궤적의 역학적 특성을 연구하고 시각화하기 위한 유용한 프레임워크를 제공함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신경망 학습 역학의 스칼라 표현 (Scalar Representations of Neural Network Training Dynamics)

요약

핵심 포인트

댓글