활성화 함수: 비선형성이 모든 것인 이유
요약
심층 신경망에서 비선형 활성화 함수가 왜 필수적인지 수학적 원리와 함께 설명합니다. 선형 변환의 중첩 문제를 지적하며 Sigmoid의 기울기 소실 문제와 이를 해결한 ReLU 및 최신 함수들의 특성을 비교 분석합니다.
핵심 포인트
- 비선형성이 없으면 다층 네트워크는 단일 선형 변환과 동일해짐
- Sigmoid 함수는 포화 영역에서 기울기 소실 문제를 야기함
- ReLU는 양수 입력에 대해 기울기를 유지하여 심층 학습을 가능케 함
- GELU, SiLU 등 현대적 함수들은 기울기 흐름 유지에 효과적임
알아두면 좋은 증명이 하나 있습니다. 만약 사이에 어떤 비선형성(non-linearity)도 없이 선형 변환(linear transformations)을 쌓는다면, 전체 네트워크는 단일한 선형 변환과 동일합니다. 10개 레이어든, 100개 레이어든, 1000개 레이어든 — 모두 하나의 행렬 곱셈으로 무너집니다. 활성화 함수(Activation functions)가 이 붕괴를 막아주는 역할을 합니다.
선형성 붕괴 시연
import numpy as np
W1 = np.random.randn(4, 4)
...
세 개의 레이어는 하나에 비해 추가적인 표현력(expressive power)이 없습니다. 각 레이어 사이에 비선형 함수를 추가하면 이 상태가 깨집니다.
Sigmoid: 최초의 시도와 그 문제점
def sigmoid(x):
return 1.0 / (1.0 + np.exp(-x))
...
x= -5 gradient=0.006648
x= -2 gradient=0.104994
x= 0 gradient=0.250000
...
$x=\pm 5$일 때, 기울기(gradient)는 $x=0$일 때보다 26배 작습니다. 10개 레이어 네트워크에서 이 복합적인 효과가 기울기를 완전히 죽여버리는데 — 이것이 바로 **기울기 소실 문제(vanishing gradient problem)**입니다.
ReLU: 놀라울 정도로 효과적인 해결책
def relu(x):
return np.maximum(0, x)
...
양수 입력에 대한 기울기는 정확히 1입니다. 깊은 네트워크를 통과할 때 양수 측면에서 기울기가 줄어들지 않습니다. 드디어 심층 네트워크(Deep networks)를 학습시킬 수 있게 된 것입니다.
단점: 입력이 지속적으로 음수인 뉴런은 0의 기울기를 받게 되는데 — 이것이
import torch
import torch.nn as nn
import torch.nn.functional as F
...
하나의 선형 투영 (linear projection)이 다른 값이 통과할지 여부를 결정합니다 — 이는 단순한 요소별 비선형성 (element-wise non-linearity)보다 더 표현력이 높습니다.
기울기 흐름 (Gradient flow) 비교
def test_gradient_flow(activation_fn, depth=20, seed=0):
torch.manual_seed(seed)
layers = []
...
ReLU : 입력 기울기 크기 = 0.003241
Sigmoid : 입력 기울기 크기 = 0.000001
GELU : 입력 기울기 크기 = 0.004817
...
Sigmoid는 수천 배 더 나쁩니다. ReLU, GELU, SiLU는 모두 비슷한 수준입니다 — 이들 사이의 격차는 Sigmoid와의 격차보다 훨씬 덜 중요합니다.
요약
| 함수 | 사용처 | 주요 특성 |
|---|---|---|
| Sigmoid | 오래된 네트워크 | 포화 (Saturates); 기울기 소실 (vanishing gradients) |
| ... |
이러한 발전은 하나의 흐름을 따릅니다: 많은 레이어를 통해 기울기를 살아있게 유지하고, 네트워크에 충분한 표현력 (expressive power)을 부여하며, 잘 작동하는 것을 지나치게 복잡하게 만들지 않는 것입니다.
이 글은 AI 내부 구조에 관한 연속 시리즈의 일부입니다. 더 많은 맥락이 포함된 전체 기사는 machina.chat/blog에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기