인공 신경망(Neural Networks)의 실제 작동 원리 — 호기심 많은 이들을 위한 스레드 - Insights | Molayo

모든 것은 여러분이 이미 알고 있는 것에서 시작됩니다:

y = mx + c

이것은 단순한 직선입니다. 하지만 이 직선들을 충분히 쌓고, 서로 연결하고, 비선형성 (Non-linearity)을 추가한다면? 그것이 바로 인공 신경망 (Neural Network)입니다.

상세한 분석은 다음과 같습니다.

━━━━━━━━━━━━━━━

📌 훈련 (TRAINING) — 모델이 학습하는 방법

처음에는 m과 c의 최적값을 알지 못합니다. 그래서 우리는 다음과 같은 과정을 거칩니다:

무작위 값으로 시작합니다.
ŷ = mx + c를 예측합니다.
실제 값 (y)과 비교합니다.
손실 (Loss, 오차)을 계산합니다:

L = (y − ŷ)²

이것은 평균 제곱 오차 (Mean Squared Error, MSE)입니다. 우리의 목표는 무엇일까요? 바로 이 손실을 최소화하는 것입니다.

━━━━━━━━━━━━━━━

📐 기울기 (Gradients) — 학습 단계

우리는 미분 (Differentiation)을 사용하여 m 또는 c의 변화가 손실에 어떤 영향을 미치는지 확인합니다.

이것을 기울기 (Gradients)라고 부릅니다. 그런 다음 경사 하강법 (Gradient Descent)을 사용합니다:

m_new = m_old − η · (∂L/∂m)
c_new = c_old − η · (∂L/∂c)

여기서 η = 학습률 (Learning rate, 모델이 업데이트되는 속도)입니다.

━━━━━━━━━━━━━━━

🔗 직선에서 인공 신경망으로

이제 여러 개의 입력값 — x₁, x₂, x₃... 이 있다고 상상해 보세요.

y = w₁x₁ + w₂x₂ + w₃x₃ + ... + b

→ wᵢ = 각 입력에 대한 가중치 (Weight, 해당 입력이 얼마나 중요한지)
→ b = 편향 (Bias, c와 유사하게 곡선을 이동시키는 역할)

각 xᵢ, wᵢ 쌍은 하나의 "연결 강도 (Connection strength)"가 됩니다.

이것이 하나의 뉴런 (Neuron)입니다.

━━━━━━━━━━━━━━━

🏗️ 네트워크 구조

→ 입력층 (Input Layer): 데이터가 들어오는 곳 (x1, x2, x3...)
→ 은닉층 (Hidden Layers): 복잡한 특징을 학습하는 곳
→ 출력층 (Output Layer): 최종 예측값을 제공하는 곳

각 뉴런은 다음 층의 뉴런들과 연결됩니다. 모든 연결은 고유한 가중치를 가집니다.

각 뉴런의 출력값 = f(W · X + b)

━━━━━━━━━━━━━━━

⚡ 활성화 함수 (Activation Functions) — 비선형성 추가

가중치가 적용된 입력값들을 선형적으로만 결합한다면, 모델은 직선만을 학습할 수 있습니다. 현실 세계의 데이터는 비선형적입니다. 그래서 우리는 활성화 함수 (Activation functions)를 추가합니다:

• Sigmoid → 확률 (0에서 1 사이)
• ReLU → max(0, x) — 비선형성을 추가하며 효율적임
• Tanh → 0을 중심으로 함
• Softmax → 다중 클래스 분류 (Multi-class classification)

이 함수들은 네트워크가 복잡하고 곡선적인 결정 경계 (Decision boundaries)를 모델링할 수 있게 해줍니다.

━━━━━━━━━━━━━━━

🌐 보편적 근사 정리 (Universal Approximation Theorem)

이것이 딥러닝 (Deep learning)의 핵심입니다.

"충분한 뉴런(neurons)과 레이어(layers)를 가진 신경망은 충분한 데이터와 학습이 뒷받침된다면, 아무리 복잡하더라도 세상의 어떤 함수든 근사할 수 있습니다."

번역: 이들은 주가부터 언어 의미론(language semantics)에 이르기까지 모든 패턴을 모델링할 수 있습니다.

━━━━━━━━━━━━━━━

🔢 행렬(Matrices)을 사용하는 이유?

한 번에 하나의 가중치(weight)를 계산하는 대신, 입력(inputs), 가중치(weights), 편향(biases)을 행렬로 표현합니다:

Y = f(WX + b)

이를 통해 벡터화된 연산(vectorized computation)이 가능해지며, 이는 GPU에서 매우 빠르게 작동합니다.

━━━━━━━━━━━━━━━

🔁 역전파 (Backpropagation) — 다층 네트워크에서의 학습

레이어가 많을 때의 과정은 다음과 같습니다:

모델이 출력을 예측합니다.
손실(loss, 모델이 얼마나 틀렸는지)을 계산합니다.
이 오차를 레이어별로 역방향으로 전달하며, 각 단계에서 경사(gradients)를 사용하여 가중치를 조정합니다.

이것이 바로 역전파(backpropagation)이며, 신경망 학습의 중추입니다.

━━━━━━━━━━━━━━━

🧾 핵심 개념 요약

• 가중치 (Weights, W) → 뉴런 사이의 연결 강도
• 편향 (Bias, b) → 결정 경계(decision boundary)를 이동시킴
• 활성화 함수 (Activation Function) → 비선형성 (non-linearity)을 추가
• 손실 함수 (Loss Function) → 오차를 측정
• 경사 하강법 (Gradient Descent) → 가중치를 조정하여 손실을 최소화
• 역전파 (Backpropagation) → 오차를 역방향으로 전달

━━━━━━━━━━━━━━━

🔄 시각적 흐름:

입력층 (Input Layer) → 은닉층 (Hidden Layer(s)) → 출력층 (Output Layer)
→ 가중합 (Weighted Sum) → 활성화 (Activation)
→ 손실 계산 (Loss Computation)
→ 역전파 (Backpropagation)
→ 가중치 업데이트 (Update Weights)

네트워크가 패턴을 완벽하게 학습할 때까지 이 과정을 반복합니다.

━━━━━━━━━━━━━━━

🌍 현실 세계의 비유

인간이 학습하는 방식과 유사하다고 생각해보세요:
• 입력 (Inputs) = 감각 데이터
• 가중치 (Weights) = 각 입력에 부여하는 주의/중요도
• 편향 (Bias) = 우리의 기본 성향
• 활성화 (Activation) = 우리 뇌가 반응할지 여부
• 손실 (Loss) = 우리가 얼마나 틀렸는지
• 경사 (Gradients) = 다음에 어떻게 조정할지

━━━━━━━━━━━━━━━

💡 요약하자:

신경망 = 입력에서 출력으로 변환하는 가중치 연결의 레이어들이며, 경사 기반 최적화(gradient-based optimization)와 비선형 활성화(non-linear activation)를 통해 손실을 최소화하도록 학습합니다.

인공 신경망(Neural Networks)의 실제 작동 원리 — 호기심 많은 이들을 위한 스레드

요약

핵심 포인트

댓글