Dev.to헤드라인2026. 06. 27. 00:51

처음부터 배우는 규제 (Regularization): L1 vs L2 시각화

요약

모델의 과적합을 방지하기 위한 규제(Regularization) 기법인 L1과 L2의 차이점을 시각화로 설명합니다. 페널티 방식에 따라 계수가 축소되거나 0이 되는 과정을 통해 일반화 성능을 높이는 원리를 다룹니다.

핵심 포인트

L2(Ridge)는 계수를 0에 가깝게 매끄럽게 축소함
L1(Lasso)은 일부 계수를 정확히 0으로 만들어 특성 선택 수행
λ(람다) 조절을 통해 편향-분산 트레이드오프 제어 가능
규제 적용 전 특성 표준화(Standardization)가 필수적임

노이즈가 있는 데이터에 유연하게 맞춰진 모델은 모든 점을 통과하며 요동치게 되고, 일반화 (Generalization) 성능이 매우 떨어지게 됩니다. 규제 (Regularization)는 이에 대한 해결책입니다. 큰 계수 (Coefficient)에 페널티를 부여하여 모델이 더 단순하고 매끄러운 답을 선호하도록 만듭니다. 여기 L1 대 L2를 통해 실시간으로 확인해 보세요.

🪢 λ를 드래그하여 과적합 (Overfitting)이 제어되는 것을 확인하세요: https://dev48v.infy.uk/ml/day17-regularization.html

개념

손실 함수 (Loss function)에 계수 크기에 대한 페널티를 추가합니다:

L2 (Ridge): _제곱_의 합에 페널티를 부여 → 모든 계수를 0을 향해 매끄럽게 축소시킵니다.
L1 (Lasso): _절댓값_의 합에 페널티를 부여 → 일부 계수를 정확히 0으로 만듭니다 (자동 특성 선택 (Automatic feature selection)).

데모에서는 9차 다항식 (Degree-9 polynomial)이 λ=0일 때 12개의 노이즈가 있는 점들에 과적합됩니다 (계수 값이 수천 단위). λ를 높이면 곡선이 실제 형태를 향해 매끄러워지며, 너무 높이면 과소적합 (Underfit)됩니다. 계수 막대를 관찰해 보세요: L2는 모든 계수를 축소시키고, L1은 여러 개를 0으로 만듭니다.

λ는 조절 다이얼입니다

λ는 편향-분산 트레이드오프 (Bias-variance trade-off)를 조절합니다. 너무 작으면 → 과적합 (Overfit, 높은 분산). 너무 크면 → 과소적합 (Underfit, 높은 편향). 최적의 지점은 홀드아웃 (Held-out) 오차를 최소화하는 지점이며, 교차 검증 (Cross-validation)을 통해 선택합니다.

실무 참고 사항

먼저 특성 (Features)을 표준화 (Standardize) 하세요 (페널티는 스케일에 민감합니다). Ridge는 깔끔한 폐형식 (Closed form)을 가지지만, Lasso는 반복적 솔버 (Iterative solver)가 필요합니다. Elastic Net은 이 둘을 혼합한 방식입니다.

🔨 페이지 내에서 처음부터 구축되었습니다 (다항식 특성 → λI를 이용한 Ridge 폐형식 → L1 좌표 하강법 (Coordinate descent)): https://dev48v.infy.uk/ml/day17-regularization.html

MachineLearningFromZero의 일부입니다. 🌐 https://dev48v.infy.uk

AI 자동 생성 콘텐츠

원문 바로가기

처음부터 배우는 규제 (Regularization): L1 vs L2 시각화

요약

핵심 포인트

개념

λ는 조절 다이얼입니다

실무 참고 사항

댓글