본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 27. 00:51

처음부터 배우는 규제 (Regularization): L1 vs L2 시각화

요약

모델의 과적합을 방지하기 위한 규제(Regularization) 기법인 L1과 L2의 차이점을 시각화로 설명합니다. 페널티 방식에 따라 계수가 축소되거나 0이 되는 과정을 통해 일반화 성능을 높이는 원리를 다룹니다.

핵심 포인트

  • L2(Ridge)는 계수를 0에 가깝게 매끄럽게 축소함
  • L1(Lasso)은 일부 계수를 정확히 0으로 만들어 특성 선택 수행
  • λ(람다) 조절을 통해 편향-분산 트레이드오프 제어 가능
  • 규제 적용 전 특성 표준화(Standardization)가 필수적임

노이즈가 있는 데이터에 유연하게 맞춰진 모델은 모든 점을 통과하며 요동치게 되고, 일반화 (Generalization) 성능이 매우 떨어지게 됩니다. 규제 (Regularization)는 이에 대한 해결책입니다. 큰 계수 (Coefficient)에 페널티를 부여하여 모델이 더 단순하고 매끄러운 답을 선호하도록 만듭니다. 여기 L1 대 L2를 통해 실시간으로 확인해 보세요.

🪢 λ를 드래그하여 과적합 (Overfitting)이 제어되는 것을 확인하세요: https://dev48v.infy.uk/ml/day17-regularization.html

개념

손실 함수 (Loss function)에 계수 크기에 대한 페널티를 추가합니다:

  • L2 (Ridge): _제곱_의 합에 페널티를 부여 → 모든 계수를 0을 향해 매끄럽게 축소시킵니다.
  • L1 (Lasso): _절댓값_의 합에 페널티를 부여 → 일부 계수를 정확히 0으로 만듭니다 (자동 특성 선택 (Automatic feature selection)).

데모에서는 9차 다항식 (Degree-9 polynomial)이 λ=0일 때 12개의 노이즈가 있는 점들에 과적합됩니다 (계수 값이 수천 단위). λ를 높이면 곡선이 실제 형태를 향해 매끄러워지며, 너무 높이면 과소적합 (Underfit)됩니다. 계수 막대를 관찰해 보세요: L2는 모든 계수를 축소시키고, L1은 여러 개를 0으로 만듭니다.

λ는 조절 다이얼입니다

λ는 편향-분산 트레이드오프 (Bias-variance trade-off)를 조절합니다. 너무 작으면 → 과적합 (Overfit, 높은 분산). 너무 크면 → 과소적합 (Underfit, 높은 편향). 최적의 지점은 홀드아웃 (Held-out) 오차를 최소화하는 지점이며, 교차 검증 (Cross-validation)을 통해 선택합니다.

실무 참고 사항

먼저 특성 (Features)을 표준화 (Standardize) 하세요 (페널티는 스케일에 민감합니다). Ridge는 깔끔한 폐형식 (Closed form)을 가지지만, Lasso는 반복적 솔버 (Iterative solver)가 필요합니다. Elastic Net은 이 둘을 혼합한 방식입니다.

🔨 페이지 내에서 처음부터 구축되었습니다 (다항식 특성 → λI를 이용한 Ridge 폐형식 → L1 좌표 하강법 (Coordinate descent)): https://dev48v.infy.uk/ml/day17-regularization.html

MachineLearningFromZero의 일부입니다. 🌐 https://dev48v.infy.uk

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0