arXiv논문2026. 06. 16. 11:53

Z-Plane 신경망: ReLU와 LayerNorm을 대체하는 유계 기하학적 활성화 함수

요약

ReLU와 LayerNorm 없이도 안정적인 학습이 가능한 Z-Plane 신경망을 제안합니다. 초구체 상의 2D 페이저 번들 매핑과 새로운 기하학적 활성화 함수를 통해 그래디언트 불안정성을 해결하고 특징 표현의 직교성을 보존합니다.

핵심 포인트

ReLU와 LayerNorm을 대체하는 유계 기하학적 활성화 함수 도입
위상(방향)을 보존하고 에너지 크기를 제한하는 Radial Bounding 방식
1-Lipschitz 연속성 유지를 통한 그래디언트 소실 방지 입증
100층 MLP 모델에서 MNIST 데이터셋 98.34% 정확도 달성

현대적인 심층 신경망 (Deep Neural Networks)은 심층 구조에서 그래디언트 불안정성 (Gradient Instability)을 방지하기 위해 유클리드 스칼라 활성화 함수 (Euclidean scalar activations, 예: ReLU)와 전역 정규화 기술 (Global normalization techniques, 예: LayerNorm)에 의존합니다. 그러나 이러한 메커니즘은 본질적으로 죽은 뉴런 (Dead neurons)을 유발하고, 중요한 방향 정보 (Directional information)를 버리며, 특징 표현 (Feature representations)의 직교성 (Orthogonality)을 파괴합니다. 생물학적 축삭 (Axons)의 주파수 변조 전송 (Frequency-modulation transmission)에서 영감을 받아, 우리는 은닉 상태 (Hidden states)를 초구체 (Hypersphere) 상의 2D 페이저 번들 (2D phasor bundles)로 매핑하는 Z-Plane 신경망 (Z-Plane Neural Network)을 제안합니다. 우리는 위상 (Phase, 방향)을 보존하면서 에너지 크기 (Energy magnitude)를 제한하는 새로운 기하학적 활성화 함수인 Radial Bounding ($\mathbf{x} / \max(1, |\mathbf{x}|_2)$)을 도입합니다. 우리는 이 등방성 활성화 (Isotropic activation)가 접선 그래디언트 (Tangential gradients)를 보존함으로써 1-립시츠 연속성 (1-Lipschitz continuity)을 유지하고 그래디언트 소실 (Gradient vanishing)을 방지함을 수학적으로 입증합니다. 경험적으로, ReLU와 LayerNorm이 완전히 제거된 100층 규모의 Z-Plane 다층 퍼셉트론 (Multi-Layer Perceptron, MLP)은 MNIST 데이터셋에서 98.34%의 정확도와 절대적인 수치적 안정성 (Numerical stability)을 보이며 성공적으로 수렴하였으며, 이는 유계 기하학적 활성화 (Bounded geometric activation)만으로도 안정적인 딥러닝에 충분하다는 것을 증명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Z-Plane 신경망: ReLU와 LayerNorm을 대체하는 유계 기하학적 활성화 함수

요약

핵심 포인트

댓글