왜 심층 신경망에서 기하학적 연속성이 나타나는가: 잔여 연결과 회전 대칭성 파괴
요약
본 기사는 심층 신경망의 가중치 행렬이 가지는 '기하학적 연속성' 현상의 원인을 탐구합니다. 연구 결과, 이 연속성은 잔여 연결(residual connections)을 통한 층 간 기울기 일관성과 대칭성을 파괴하는 비선형성(symmetry-breaking nonlinearities)의 조합에 의해 발생함을 밝혀냈습니다. 특히, 활성화 함수와 정규화가 각각 주된 특이값 방향과 여러 방향으로 연속성을 집중시키거나 분산시키는 등 서로 다른 역할을 수행하며, 트랜스포머 구조에서 각 투영 메커니즘(Q, K, Gate, Up vs O, Down)의 역할 차이를 분석했습니다.
핵심 포인트
- 심층 신경망 가중치 행렬은 인접 층 간에 주된 특이값 벡터가 유사한 방향을 보이는 '기하학적 연속성'을 나타낸다.
- 잔여 연결은 층 전체로 기울기 일관성을 생성하여 가중치 업데이트를 정렬시키는 역할을 한다.
- 대칭성을 파괴하는 비선형성은 회전 드리프트를 방지하고 모든 층이 공유된 좌표 프레임에 구속되도록 한다.
- 활성화 함수는 주된 특이값 방향의 연속성에 집중시키고, 정규화는 여러 방향으로 분산시키는 등 역할이 다르다.
- 트랜스포머 구조에서 Q, K, Gate, Up은 입력 공간의 연속성을 발달시키지만, O와 Down은 출력 공간의 연속성을 담당한다.
심층 네트워크의 가중치 행렬은 기하학적 연속성을 보인다는 것이 관찰됨 -- 인접한 층들의 주된 특이값 벡터 (principal singular vectors) 는 유사한 방향을 향한다. 이러한 속성은 광범위하게 관찰되어 왔으나, 그 기원은 아직 설명되지 않았다. 토이 MLPs 와 작은 트랜스포머에 대한 실험을 통해 두 가지 메커니즘을 식별함: 잔여 연결 (residual connections) 은 층 간 기울기 일관성 (cross-layer gradient coherence) 을 생성하여 가중치 업데이트를 층 전체로 정렬시키고, 대칭성을 파괴하는 비선형성 (symmetry-breaking nonlinearities) 은 모든 층이 공유된 좌표 프레임에 구속되도록 하여, 가중치 구조를 불안정하게 할 수 있는 회전 드리프트 (rotation drift) 를 방지한다.至关重要的是, 비선형적이지만 회전을 보존하는 활성화 함수는 연속성을 유지하지 못함 -- 이는 대칭성 파괴가 아닌 비선형성 자체의 역할임을 분리해냄. 활성화와 정규화는 서로 다른 역할을 수행함: 활성화는 주된 특이값 방향 (leading singular direction) 에 연속성을 집중시키고, 정규화는 여러 방향으로 분산시킴. 트랜스포머에서 연속성은 투영에 특화됨: Q, K, Gate, Up (잔류 스트림을 읽음) 은 입력 공간 ($\mathbf{v}_1$) 의 연속성을 발달시키며, O 와 Down (그것을 씀) 은 출력 공간 ($\mathbf{u}_1$) 의 연속성을 발달시킴; V 만은 인접한 비선형성이 없어만 낮은 연속성을 발달시킴.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기