Criticality and Saturation in Orthogonal Neural Networks
요약
본 논문은 오르토고널 가중치 초기화가 된 유한 너비 비선형 신경망의 안정성을 이론적으로 분석합니다. 저자들은 네트워크 통계에 대한 명시적인 레이어별 재귀 관계를 도출하고, 기존 i.i.d.-초기화 모델에 적용되던 Feynman 다이어그램을 확장하여 $1/ ext{width}$ 항까지 일반화했습니다. 이를 통해 오르토고널 초기화가 깊은 네트워크에서 안정성을 유지하는 이유를 수학적으로 설명하며, 이 이론적 결과를 수치 해석 및 몬테카를로 시뮬레이션으로 검증합니다.
핵심 포인트
- 오르토고널 가중치 초기화는 신경망의 성능 개선에 기여한다는 기존 지식을 확장하여 이론적 기반을 마련함.
- 네트워크 통계에 대한 명시적인 레이어별 재귀 관계를 오르토고널 초기화 경우에 성공적으로 유도함.
- 기존 i.i.d.-초기화 모델의 Feynman 다이어그램 분석을 확장하여 $1/ ext{width}$ 항까지 일반화함으로써 이론적 범위를 넓힘.
- 유도된 재귀식이 소멸 고정점을 가진 활성화 함수에서 관찰되는 안정성을 명시적으로 재현함을 증명함.
오르того널 신경망에서 가중치 행렬을 i.i.d. 가우시안 성분 대신 오르토고널로 초기화하는 것이 훈련 성능을 개선할 수 있다는 것은 오랫동안 알려져 있습니다. 이 현상은 유한 너비 보정을 사용하여 분석할 수 있으며, 무한 너비 통계에 $1/ ext{width}$의 멱급수를 추가합니다. 특히 Day et al. 의 최근 경험적 결과에 따르면, 이 처리에서 나타나는 텐서는 큰 깊이에서 안정화되지만 i.i.d.-초기화 네트워크의 텐서는 그렇지 않습니다. 본 논문에서는 오르토고널 초기화의 경우 네트워크 통계의 유한 너비 확장에 나타나는 텐서에 대한 명시적인 레이어별 재귀 관계를 유도합니다. 또한 우리는 i.i.d.-경우에 해당되는 재귀식에 적용할 수 있는 최근 도입된 Feynman 다이어그램을 확장하여 $1/ ext{width}$의 모든 순서까지 유효함을 제공합니다. 마지막으로, 우리는 우리가 유도한 재귀식이 소멸 고정점을 가진 활성화 함수에서 관찰된 유한 너비 텐서의 안정성을 명시적으로 재현함을 보여줍니다. 따라서 이 작업은 오르토고널 가중치로 초기화된 유한 너비 비선형 네트워크의 안정성에 대한 이론적 설명을 제공하여 문헌에 오랫동안 존재했던 간극을 닫습니다. 우리는 수치해석적 결과 실험적으로 검증하여, 우리의 재귀 관계식과 그 분석적 큰 깊이 확장이 몬테카를로 추정치와 완벽하게 일치함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기