arXiv중요논문2026. 04. 24. 11:18

GEM: ReLU의 단점을 보완한 초매끄러운 활성화 함수 계열

요약

본 논문은 기존 활성화 함수(예: ReLU)가 가지는 불연속성 문제를 해결하기 위해 $C^{2N}$-매끄러운 특성을 가진 새로운 계열의 활성화 함수, GEM(Geometric Monomial)을 제안합니다. GEM은 유리수 산술만을 사용하면서도 ReLU와 유사한 성능을 달성하며, 세 가지 변형체(GEM, E-GEM, SE-GEM)를 제시합니다. 특히 $N=1$ 설정이 표준 깊이 네트워크에서 최적의 성능을 보이며, CIFAR-100 + ResNet-56에서 GELU 대비 큰 폭으로 성능 향상을 입증했습니다. 이 연구는 CNN과 트랜스

핵심 포인트

GEM은 유리수 산술만을 사용하면서도 $C^{2N}$-매끄러운 활성화 함수 계열을 제공하여 ReLU의 불연속성 문제를 해결합니다.
$N=1$ 설정이 표준 깊이 네트워크에 최적이며, CIFAR-100 + ResNet-56에서 GELU 대비 6.10%의 손실(deficit)을 2.12%로 크게 줄였습니다.
SE-GEM은 $C^{2N}$ 접합부 부드러움을 유지하면서 데드 뉴런 문제를 제거하는 변형체이며, CIFAR-10에서 GELU를 능가한 첫 GEM 계열 활성화 함수입니다.
활성화 함수의 매끄러움 파라미터($N$)는 네트워크 구조에 따라 최적값이 달라집니다: 깊은 CNN에는 $N=1$, 트랜스포머에는 $N=2$가 선호됩니다.

딥 신경망(Deep Neural Networks)의 성능과 최적화 과정에서 활성화 함수(Activation Function)의 선택은 매우 중요합니다. 현재까지도 ReLU (Rectified Linear Unit)가 단순성과 효과성 덕분에 지배적인 선택지이지만, 그 불연속성(lack of smoothness)은 깊은 아키텍처에서의 기울기 기반 최적화(gradient-based optimization)를 방해하는 요인이 될 수 있습니다.

본 연구는 이러한 문제를 해결하기 위해 $C^{2N}$-매끄러운 특성을 가진 새로운 활성화 함수 계열인 GEM (Geometric Monomial)을 제안합니다. 이 함수들은 로그-로지스틱 누적 분포 함수(log-logistic CDF)를 게이트(gate)로 사용하며, 순수하게 유리수 산술(purely rational arithmetic)만을 사용하여 ReLU와 유사한 성능을 달성하는 것이 특징입니다.

저자들은 세 가지 주요 변형체를 소개합니다:

GEM (Base Family): 기본 GEM 계열 함수입니다.
E-GEM: $\epsilon$-매개변수화($\epsilon$-parameterized)를 통해 ReLU의 임의 $L^p$-근사(arbitrary $L^p$-approximation)가 가능한 일반화 버전입니다.
SE-GEM: 구간별(piecewise) 변형체로, $C^{2N}$ 접합부 부드러움을 유지하면서 데드 뉴런(dead neurons) 문제를 제거합니다.

주요 실험 결과 및 분석:

최적 매끄러움 파라미터 ($N$): $N$-제거 연구(N-ablation study)를 통해 표준 깊이 네트워크에는 $N=1$이 최적임을 확인했습니다. 이 설정은 CIFAR-100 + ResNet-56에서 GELU (Gaussian Error Linear Unit) 대비 6.10%의 손실을 2.12%로 줄이는 효과를 보였습니다.
CNN vs. Transformer 트레이드오프: 매끄러움 파라미터 $N$은 네트워크 구조에 따른 최적화 경향을 보여줍니다. 깊은 CNN(Convolutional Neural Networks)에는 $N=1$이 선호되며, 트랜스포머(Transformers)에는 $N=2$가 더 적합합니다.
성능 비교:
- MNIST: E-GEM은 최고 기준선 모델과 동등한 성능을 보였습니다 (99.23%).
- CIFAR-10 + ResNet-56: SE-GEM ($\epsilon=10^{-4}$)이 GELU (92.44%)를 능가하며, GEM 계열 중 최초로 GELU를 뛰어넘은 활성화 함수임을 입증했습니다.
- GPT-2 (124M): GEM은 가장 낮은 퍼플렉시티(perplexity)를 달성했으며 (72.57 vs 73.76 for GELU), $N=1$ 설정 역시 GELU보다 우수한 성능을 보였습니다 (73.32).
- BERT-small: E-GEM ($\epsilon=10$)은 모든 활성화 함수 중 가장 낮은 검증 손실(validation loss) 6.656을 기록했습니다.
$\epsilon$-매개변수화의 규모 의존성: $\epsilon$ 매개변수는 스케일 의존적인 최적값을 보여줍니다. 깊은 CNN이나 대형 트랜스포머에서는 작은 $\epsilon$ ($10^{-4}$~$10^{-6}$)이 유리하며, BERT-small과 같은 작고 제한된 깊이를 가진 모델의 경우 큰 $\epsilon$ ($\epsilon=10$)이 이점을 제공합니다.

결론적으로, GEM 계열은 단순한 수학적 구조(유리수 산술)를 유지하면서도 활성화 함수의 매끄러움을 극대화하여 최신 딥러닝 모델의 성능을 향상시키는 효과적인 대안임을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GEM: ReLU의 단점을 보완한 초매끄러운 활성화 함수 계열

요약

핵심 포인트

댓글