arXiv논문2026. 05. 08. 17:03

Criticality and Saturation in Orthogonal Neural Networks

요약

본 논문은 오르토고널 가중치 초기화가 된 유한 너비 비선형 신경망의 안정성을 이론적으로 분석합니다. 저자들은 네트워크 통계에 대한 명시적인 레이어별 재귀 관계를 도출하고, 기존 i.i.d.-초기화 모델에 적용되던 Feynman 다이어그램을 확장하여 $1/ ext{width}$ 항까지 일반화했습니다. 이를 통해 오르토고널 초기화가 깊은 네트워크에서 안정성을 유지하는 이유를 수학적으로 설명하며, 이 이론적 결과를 수치 해석 및 몬테카를로 시뮬레이션으로 검증합니다.

핵심 포인트

오르토고널 가중치 초기화는 신경망의 성능 개선에 기여한다는 기존 지식을 확장하여 이론적 기반을 마련함.
네트워크 통계에 대한 명시적인 레이어별 재귀 관계를 오르토고널 초기화 경우에 성공적으로 유도함.
기존 i.i.d.-초기화 모델의 Feynman 다이어그램 분석을 확장하여 $1/ ext{width}$ 항까지 일반화함으로써 이론적 범위를 넓힘.
유도된 재귀식이 소멸 고정점을 가진 활성화 함수에서 관찰되는 안정성을 명시적으로 재현함을 증명함.

오르того널 신경망에서 가중치 행렬을 i.i.d. 가우시안 성분 대신 오르토고널로 초기화하는 것이 훈련 성능을 개선할 수 있다는 것은 오랫동안 알려져 있습니다. 이 현상은 유한 너비 보정을 사용하여 분석할 수 있으며, 무한 너비 통계에 $1/ ext{width}$의 멱급수를 추가합니다. 특히 Day et al. 의 최근 경험적 결과에 따르면, 이 처리에서 나타나는 텐서는 큰 깊이에서 안정화되지만 i.i.d.-초기화 네트워크의 텐서는 그렇지 않습니다. 본 논문에서는 오르토고널 초기화의 경우 네트워크 통계의 유한 너비 확장에 나타나는 텐서에 대한 명시적인 레이어별 재귀 관계를 유도합니다. 또한 우리는 i.i.d.-경우에 해당되는 재귀식에 적용할 수 있는 최근 도입된 Feynman 다이어그램을 확장하여 $1/ ext{width}$의 모든 순서까지 유효함을 제공합니다. 마지막으로, 우리는 우리가 유도한 재귀식이 소멸 고정점을 가진 활성화 함수에서 관찰된 유한 너비 텐서의 안정성을 명시적으로 재현함을 보여줍니다. 따라서 이 작업은 오르토고널 가중치로 초기화된 유한 너비 비선형 네트워크의 안정성에 대한 이론적 설명을 제공하여 문헌에 오랫동안 존재했던 간극을 닫습니다. 우리는 수치해석적 결과 실험적으로 검증하여, 우리의 재귀 관계식과 그 분석적 큰 깊이 확장이 몬테카를로 추정치와 완벽하게 일치함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Criticality and Saturation in Orthogonal Neural Networks

요약

핵심 포인트

댓글