무한 너비 (Infinite Width) 가 얼마나 오래 지속되는가? 긴 거리 선형 반복의 신호 전파
요약
본 논문은 선형 반복 모델의 신호 전파를 유한 너비(finite width) 관점에서 분석하며, 기존 무한 너비 이론의 한계를 탐구한다. 연구진은 복잡 가우시안 초기화 하에서 숨겨진 상태 신호 에너지에 대한 정확한 유한 너비 공식을 도출하고, 반복 깊이($t$)와 너비($n$)가 커질 때 신호 전파를 지배하는 세 가지 스케일링 영역(subcritical, critical, supercritical)을 식별했다. 특히, 무한 너비 근사가 붕괴되는 정확한 임계적 깊이 스케일을 제시하며, 이는 반복 모델의 안정성과 초기화 방식에 대한 중요한 통찰을 제공한다.
핵심 포인트
- 선형 반복 모델에서 신호 전파를 유한 너비 관점에서 분석하여 기존 무한 너비 이론의 한계를 극복했다.
- 반복 깊이($t$)와 너비($n$)에 따라 세 가지 스케일링 영역(subcritical, critical, supercritical)을 정의하고 각각의 신호 전파 거동을 규명했다.
- 무한 너비 근사가 유효하지 않게 되는 임계적 반복 깊이 스케일 $t sim c oot{2}{n}$를 정확하게 제시하였다.
- 유한 너비 효과가 피드포워드 모델보다 반복 모델에서 더 빠르게 누적되어 질적으로 다른 신호 전파 행동을 유발함을 입증했다.
우리는 유한 너비 (finite width) 의 선형 반복 모델에서 신호 전파를 연구합니다. 기존 신호 전파 이론은 주로 무한 너비 (infinite-width) 한계 (limit) 를 기반으로 하지만, 반복 깊이 $t$ 와 너비 $n$ 이 함께 커질 때 그 근사가 얼마나 정확한지 여부는 여전히 명확하지 않습니다. 이 질문은 현대적인 반복 시퀀스 모델에 특히 중요합니다. 이러한 모델의 자연스러운 작동 영역은 긴 입력 시퀀스를 포함하며, 즉 큰 $t$ 를 의미합니다.
우리는 복잡한 가우시안 초기화 (complex Gaussian initialization) 하에서 선형 반복에서 숨겨진 상태 신호 에너지를 위한 정확한 유한 너비 공식을 유도합니다. 이러한 공식들을 사용하여 신호 전파를 지배하는 깊이-너비 스케일링 regimes 를 식별합니다: (i) 무한 너비 근사가 유효한 부차적 (subcritical) regime $t=o(\sqrt n)$; (ii) 비무미각 (non-negligible) 편차가 나타나고 비자명적인 (nontrivial) 공동 스케일링 한계 (joint scaling limit) 가 나타나는 임계적 (critical) regime $t\sim c\sqrt n$; 그리고 (iii) 유한 너비 효과가 지배적인 초임계적 (supercritical) regime $t\gg \sqrt n$. 따라서, 우리의 결과는 긴 거리 선형 반복에서 무한 너비 이론이 붕괴되는 정확한 반복 깊이 스케일을 지적합니다. 반대로, 이는 Glorot 와 같은 표준 초기화 스키마가 불안정해지는 시기를 보여줍니다.
더 넓게는, 우리의 결과는 유한 너비 효과가 피드포워드 (feedforward) 모델보다 반복 모델에서 깊이에 따라 더 빠르게 누적됨을 보여주며, 이는 질적으로 다른 신호 전파 행동을 초래합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기