본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 11:53

Z-Plane 신경망: ReLU와 LayerNorm을 대체하는 유계 기하학적 활성화 함수

요약

ReLU와 LayerNorm 없이도 안정적인 학습이 가능한 Z-Plane 신경망을 제안합니다. 초구체 상의 2D 페이저 번들 매핑과 새로운 기하학적 활성화 함수를 통해 그래디언트 불안정성을 해결하고 특징 표현의 직교성을 보존합니다.

핵심 포인트

  • ReLU와 LayerNorm을 대체하는 유계 기하학적 활성화 함수 도입
  • 위상(방향)을 보존하고 에너지 크기를 제한하는 Radial Bounding 방식
  • 1-Lipschitz 연속성 유지를 통한 그래디언트 소실 방지 입증
  • 100층 MLP 모델에서 MNIST 데이터셋 98.34% 정확도 달성

현대적인 심층 신경망 (Deep Neural Networks)은 심층 구조에서 그래디언트 불안정성 (Gradient Instability)을 방지하기 위해 유클리드 스칼라 활성화 함수 (Euclidean scalar activations, 예: ReLU)와 전역 정규화 기술 (Global normalization techniques, 예: LayerNorm)에 의존합니다. 그러나 이러한 메커니즘은 본질적으로 죽은 뉴런 (Dead neurons)을 유발하고, 중요한 방향 정보 (Directional information)를 버리며, 특징 표현 (Feature representations)의 직교성 (Orthogonality)을 파괴합니다. 생물학적 축삭 (Axons)의 주파수 변조 전송 (Frequency-modulation transmission)에서 영감을 받아, 우리는 은닉 상태 (Hidden states)를 초구체 (Hypersphere) 상의 2D 페이저 번들 (2D phasor bundles)로 매핑하는 Z-Plane 신경망 (Z-Plane Neural Network)을 제안합니다. 우리는 위상 (Phase, 방향)을 보존하면서 에너지 크기 (Energy magnitude)를 제한하는 새로운 기하학적 활성화 함수인 Radial Bounding ($\mathbf{x} / \max(1, |\mathbf{x}|_2)$)을 도입합니다. 우리는 이 등방성 활성화 (Isotropic activation)가 접선 그래디언트 (Tangential gradients)를 보존함으로써 1-립시츠 연속성 (1-Lipschitz continuity)을 유지하고 그래디언트 소실 (Gradient vanishing)을 방지함을 수학적으로 입증합니다. 경험적으로, ReLU와 LayerNorm이 완전히 제거된 100층 규모의 Z-Plane 다층 퍼셉트론 (Multi-Layer Perceptron, MLP)은 MNIST 데이터셋에서 98.34%의 정확도와 절대적인 수치적 안정성 (Numerical stability)을 보이며 성공적으로 수렴하였으며, 이는 유계 기하학적 활성화 (Bounded geometric activation)만으로도 안정적인 딥러닝에 충분하다는 것을 증명합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0