본문으로 건너뛰기

© 2026 Molayo

Lilian헤드라인2026. 05. 05. 11:52

데이터가 부족한 학습 Part 1: 반지도수학습

요약

본 기사는 라벨링된 데이터가 부족할 때 활용되는 반지도학습(Semi-supervised Learning)의 원리와 주요 방법론을 소개합니다. 반지도학습은 지도 학습 손실($ ext{L}_s$)과 비지도 손실($ ext{L}_u$)을 결합하여 모델을 훈련하며, 특히 $ ext{L}_u$ 설계에 초점을 맞춥니다. 이 글에서는 데이터의 구조적 가정(Smoothness, Cluster, Manifold 등)들을 바탕으로 하는 다양한 가설들과, 동일 입력에 대한 예측 일관성을 유지하는 '일관성 정규화(Consistency Regularization)' 기법을 심도 있게 다룹니다.

핵심 포인트

  • 반지도학습은 라벨링된 데이터와 비라벨링된 데이터를 모두 활용하여 모델의 성능을 향상시키는 접근 방식입니다.
  • 훈련 손실 함수는 지도 학습 손실($ ext{L}_s$)과 가중치 $ ext{L}_u$가 적용된 비지도 손실($ ext{L}_u$)의 결합으로 구성됩니다.
  • 반지도학습을 뒷받침하는 주요 가정들로는 'Smoothness Assumption'(근접한 데이터는 같은 라벨), 'Manifold Assumption'(데이터가 저차원 매니폴드에 존재) 등이 있습니다.
  • 핵심 기법 중 하나인 '일관성 정규화(Consistency Regularization)'는 동일 입력의 변형(증강, Dropout 등)에도 모델 예측이 일관되도록 강제하여 $ ext{L}_u$를 구성합니다.

지도학습 과제에서 라벨링된 데이터 양이 제한적일 때 일반적으로 논의되는 네 가지 접근법이 있습니다.

Pre-training + fine-tuning: 대규모 비지도 데이터 코퍼스 (예: 무료 텍스트) 에서 강력한 과제의무관 모델을 사전 학습하고, 이후 소량의 라벨링 샘플로 downstream task 에 대해 미세 조정합니다. 또는 시각 모델은 비지도 이미지 데이터를 통해 자기지도학습을 통해 사전 학습합니다.

Semi-supervised learning: 라벨링된 샘플과 비라벨링된 샘플을 함께 학습합니다. 많은 연구가 이 접근법 내에서 시각 과제에 이루어졌습니다.

Active learning: 라벨링 비용이 높지만, 제한된 비용 예산 내에서 더 많은 데이터를 수집하고 싶습니다. Active learning 은 다음 수집할 가장 가치 있는 비라벨링 샘플을 선택하는 방법을 학습하여 제한된 예산으로 지능적으로 행동하는 데 도움을 줍니다.

Pre-training + dataset auto-generation: 능력 있는 사전 학습 모델을 주어진 경우, 이를 활용하여 훨씬 더 많은 라벨링된 샘플을 자동 생성할 수 있습니다. 이는 Few-shot learning 의 성공에 의해 언어 도메인에서 특히 인기가 있었습니다.

저는 "데이터가 부족한 학습"이라는 주제에 대한 시리즈를 작성할 계획입니다. Part 1 은 Semi-supervised Learning 입니다.

What is semi-supervised learning?

반지도수학습은 라벨링된 데이터와 비라벨링된 데이터를 모두 사용하여 모델을 훈련합니다.

흥미롭게도, 반지도수학습에 관한 대부분의 기존 문헌은 시각 과제를 중점적으로 다루고 있습니다. 반면 언어 과제에서는 Pre-training + fine-tuning 이 더 일반적인 패러다임입니다.

이 포스트에서 소개된 모든 방법은 두 부분의 손실을 결합한 Loss 를 가집니다: $\mathcal{L} = \mathcal{L}_s + \mu(t) \mathcal{L}_u$. 지도학습 손실 $\mathcal{L}_s$ 는 모든 라벨링된 예제에 의해 쉽게 얻을 수 있습니다. 우리는 비지도 손실 $\mathcal{L}_u$ 가 어떻게 설계되는지에 초점을 맞출 것입니다. 일반적인 가중치 항 $\mu(t)$ 의 선택은 훈련 단계 $t$ 에 따라 $\mathcal{L}_u$ 의 중요성을 증가시키는 Ramp function 입니다.

Disclaimer: 이 포스트는 모델 아키텍처 수정에 중점을 둔 반지도수학습 방법을 다루지 않습니다. Generative models 과 Graph-based methods 를 반지도수학습에 사용하는 방법에 대한 내용은 다음 Survey 를 확인하세요.

Notations

SymbolMeaning
$L$Unique labels 의 개수.
...

Hypotheses

문헌에서 반지도수학습 방법의 특정 설계 결정을 지원하기 위해 여러 가설이 논의되었습니다.

  • H1: Smoothness Assumptions: 특징 공간의 고밀도 영역에서 두 데이터 샘플이 가까우면, 그들의 라벨은 같거나 매우 유사해야 합니다.
  • H2: Cluster Assumptions: 특징 공간에는 밀집된 영역과 희석된 영역이 모두 존재합니다. 밀집된 그룹에 있는 데이터 포인트는 자연스럽게 클러스터를 형성합니다. 같은 클러스터에 있는 샘플은 동일한 라벨을 가질 것으로 기대됩니다. 이는 H1 의 작은 확장입니다.
  • H3: Low-density Separation Assumptions: 클래스 간의 결정 경계는 일반적으로 희석된, 저밀도 영역에 위치하는 경향이 있습니다. 그렇지 않으면 결정 경계가 하나의 고밀도 클러스터로 두 개의 클래스를 잘라내어, 이는 H1 과 H2 를 무효화하기 때문입니다.
  • H4:

Manifold Assumptions: 고차원 데이터는 저차원 매니폴드 (manifold) 위에 위치하는 경향이 있습니다. 실제 세계의 데이터가 매우 높은 차원에서 관찰될 수 있음에도 불구하고 (예: 실제 세계의 객체나 장면의 이미지), 특정 속성이 포착되고 유사한 점들이 밀집되도록 하는 더 낮은 차원의 매니폴드로 캡처할 수 있습니다 (예: 실제 세계의 객체나 장면의 이미지는 모든 픽셀 조합에 대해 균일 분포에서 추출되지 않습니다). 이는 라벨이 없는 데이터 포인트 간의 유사성을 발견하고 측정하기 위해 더 효율적인 표현을 학습하는 것을 가능하게 합니다. 또한, 표현 학습 (representation learning) 의 기초입니다. [도움이 되는 링크를 참조].

Consistency Regularization

Consistency Regularization, 또는 Consistency Training은 동일한 입력에 대해 신경망 내의 무작위성 (예: Dropout) 이나 데이터 증강 변환이 모델 예측을 변경해서는 안 된다고 가정합니다. 이 섹션의 모든 방법은 $
\mathcal{L}_u$로 일관성 정규화 손실을 사용합니다.

이 아이디어는 SimCLR, BYOL, SimCSE 등 여러 자기지도 학습 (self-supervised learning) 방법에서 채택되었습니다. 동일한 샘플의 다른 증강 버전은 동일한 표현을 생성해야 합니다. 언어 모델링의 크로스 뷰 (cross-view) 학습과 자기지도 학습의 멀티 뷰 (multi-view) 학습 모두 동일한 동기를 공유합니다.

Π-model

Sajjadi et al. (2016) 는 확률적 변환 (예: Dropout, 랜덤 최대 풀링) 을 적용한 네트워크를 두 번 통과하는 차이점을 최소화하는 비지도 학습 손실을 제안했습니다. 라벨은 명시적으로 사용되지 않으므로, 이 손실은 라벨이 없는 데이터셋에 적용할 수 있습니다. Laine & Aila (2017) 는 이러한 설정을 Π-Model이라는 이름으로 명명했습니다.

여기서 $f'$는 다른 확률적 증강 또는 드롭아웃 마스크가 적용된 동일한 신경망입니다. 이 손실은 전체 데이터셋을 활용합니다.

Temporal ensembling

Π-model 은 샘플당 네트워크를 두 번 실행하도록 요구하여 계산 비용을 2 배로 늘립니다. 비용 감소를 위해 Temporal Ensembling (Laine & Aila 2017) 은 학습 대상인 각 훈련 샘플 $ ilde{\mathbf{z}}_i$에 대해 시간당 모델 예측의 지수 이동 평균 (EMA) 을 유지합니다. 앙상블 출력 $ ilde{\mathbf{z}}_i$는 초기값이 $
\mathbf{0}$이기 때문에, 이 스타트업 편향을 수정하기 위해 $(1-\alpha^t)$로 정규화됩니다. Adam 옵티마이저도 동일한 이유로 이러한 편향 수정 항을 가지고 있습니다.

여기서 $ ilde{\mathbf{z}}^{(t)}$는 에폭 $t$에서의 앙상블 예측이고, $
\mathbf{z}_i$는 현재 라운드에서의 모델 예측입니다. $ ilde{\mathbf{z}}^{(0)} =
\mathbf{0}$이므로, 수정 후 $ ilde{\mathbf{z}}^{(1)}$은 에폭 1에서 단순히 $
\mathbf{z}_i$와 동등합니다.

Mean teachers

Temporal Ensembling 은 각 훈련 샘플에 대한 라벨 예측의 EMA 를 학습 대상으로 추적합니다. 그러나 이 라벨 예측은 각 에폭마다만 변경되어, 데이터셋이 크면 접근법이 어색해집니다. Mean Teacher (Tarvaninen & Valpola, 2017) 는 모델 출력 대신 모델 가중치의 이동 평균을 추적하여 타겟 업데이트의 느린 속도를 극복하기 위해 제안되었습니다. 가중치 $ heta$를 가진 원래 모델을 학생 (student) 모델이라고 하고, 연속된 학생 모델에 걸쳐 이동 평균 가중치 $ heta'$를 가진 모델을 mean teacher라고 부릅니다: $
\theta' \gets
\beta
\theta' + (1-\beta)
\theta$

학생과 교사가 예측한 값 사이의 거리가 student-teacher gap 이며, 이를 최소화해야 합니다. Mean teacher 는 학생보다 더 정확한 예측을 제공한다는 것이 기대됩니다. 이는 실험적 결과에서 확인되었는데, 다음과 같이 보입니다.

그들의 아블레이션 (ablation) 연구에 따르면,

  • 입력 증강 (예: 입력 이미지 랜덤 회전, 가우시안 노이즈) 또는 학생 모델 드롭아웃은 좋은 성능을 위해 필수적입니다. 교사 모델에는 드롭아웃이 필요 없습니다.
  • EMA decay 하이퍼파라미터 $eta$ 에 대한 성능 민감도가 높습니다. 좋은 전략은 ramp up 단계에서 작은 $eta=0.99$ 를 사용하고, 학생 모델 개선이 느려지는 후기 단계에서는 더 큰 $eta=0.999$ 를 사용하는 것입니다.
  • MSE 를 일관성 비용 함수로 사용할 때 다른 비용 함수 (예: KL divergence) 보다 더 좋다는 것을 발견했습니다.

노이즈 샘플을 학습 대상으로 하는 방법

최근 몇 가지 일관성 훈련 방법은 원본 라벨 없는 샘플과 해당 증강 버전 사이의 예측 차이를 최소화하도록 학습합니다. 이는 Π-model 과 매우 유사하지만, 일관성 정규화 손실은 라벨 없는 데이터에만 적용됩니다.

Adversarial Training (Goodfellow et al. 2014) 은 입력에 적대적 노이즈를 적용하여 모델이 이러한 적대적 공격에 견고하게 훈련되도록 합니다. 이 설정은 supervised learning 에서 작동하며,

여기서 $q(y \

VAT 와 유사하게, 비지도 데이터 증강 (Unsupervised Data Augmentation; UDA) (Xie et al. 2020) 은 라벨이 없는 예제와 증강된 예제에 대해 동일한 출력을 예측하도록 학습합니다. UDA 는 특히 일관성 훈련 (consistency training) 을 통해 노이즈의 *

AI 자동 생성 콘텐츠

본 콘텐츠는 Lilian Weng Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0