arXiv논문2026. 05. 07. 13:00

왜 심층 신경망에서 기하학적 연속성이 나타나는가: 잔여 연결과 회전 대칭성 파괴

요약

본 기사는 심층 신경망의 가중치 행렬이 가지는 '기하학적 연속성' 현상의 원인을 탐구합니다. 연구 결과, 이 연속성은 잔여 연결(residual connections)을 통한 층 간 기울기 일관성과 대칭성을 파괴하는 비선형성(symmetry-breaking nonlinearities)의 조합에 의해 발생함을 밝혀냈습니다. 특히, 활성화 함수와 정규화가 각각 주된 특이값 방향과 여러 방향으로 연속성을 집중시키거나 분산시키는 등 서로 다른 역할을 수행하며, 트랜스포머 구조에서 각 투영 메커니즘(Q, K, Gate, Up vs O, Down)의 역할 차이를 분석했습니다.

핵심 포인트

심층 신경망 가중치 행렬은 인접 층 간에 주된 특이값 벡터가 유사한 방향을 보이는 '기하학적 연속성'을 나타낸다.
잔여 연결은 층 전체로 기울기 일관성을 생성하여 가중치 업데이트를 정렬시키는 역할을 한다.
대칭성을 파괴하는 비선형성은 회전 드리프트를 방지하고 모든 층이 공유된 좌표 프레임에 구속되도록 한다.
활성화 함수는 주된 특이값 방향의 연속성에 집중시키고, 정규화는 여러 방향으로 분산시키는 등 역할이 다르다.
트랜스포머 구조에서 Q, K, Gate, Up은 입력 공간의 연속성을 발달시키지만, O와 Down은 출력 공간의 연속성을 담당한다.

심층 네트워크의 가중치 행렬은 기하학적 연속성을 보인다는 것이 관찰됨 -- 인접한 층들의 주된 특이값 벡터 (principal singular vectors) 는 유사한 방향을 향한다. 이러한 속성은 광범위하게 관찰되어 왔으나, 그 기원은 아직 설명되지 않았다. 토이 MLPs 와 작은 트랜스포머에 대한 실험을 통해 두 가지 메커니즘을 식별함: 잔여 연결 (residual connections) 은 층 간 기울기 일관성 (cross-layer gradient coherence) 을 생성하여 가중치 업데이트를 층 전체로 정렬시키고, 대칭성을 파괴하는 비선형성 (symmetry-breaking nonlinearities) 은 모든 층이 공유된 좌표 프레임에 구속되도록 하여, 가중치 구조를 불안정하게 할 수 있는 회전 드리프트 (rotation drift) 를 방지한다.至关重要的是, 비선형적이지만 회전을 보존하는 활성화 함수는 연속성을 유지하지 못함 -- 이는 대칭성 파괴가 아닌 비선형성 자체의 역할임을 분리해냄. 활성화와 정규화는 서로 다른 역할을 수행함: 활성화는 주된 특이값 방향 (leading singular direction) 에 연속성을 집중시키고, 정규화는 여러 방향으로 분산시킴. 트랜스포머에서 연속성은 투영에 특화됨: Q, K, Gate, Up (잔류 스트림을 읽음) 은 입력 공간 ($\mathbf{v}_1$) 의 연속성을 발달시키며, O 와 Down (그것을 씀) 은 출력 공간 ($\mathbf{u}_1$) 의 연속성을 발달시킴; V 만은 인접한 비선형성이 없어만 낮은 연속성을 발달시킴.

AI 자동 생성 콘텐츠

원문 바로가기

왜 심층 신경망에서 기하학적 연속성이 나타나는가: 잔여 연결과 회전 대칭성 파괴

요약

핵심 포인트

댓글