Lilian헤드라인2026. 05. 05. 11:52

데이터가 부족한 학습 Part 1: 반지도수학습

요약

본 기사는 라벨링된 데이터가 부족할 때 활용되는 반지도학습(Semi-supervised Learning)의 원리와 주요 방법론을 소개합니다. 반지도학습은 지도 학습 손실($ ext{L}_s$)과 비지도 손실($ ext{L}_u$)을 결합하여 모델을 훈련하며, 특히 $ ext{L}_u$ 설계에 초점을 맞춥니다. 이 글에서는 데이터의 구조적 가정(Smoothness, Cluster, Manifold 등)들을 바탕으로 하는 다양한 가설들과, 동일 입력에 대한 예측 일관성을 유지하는 '일관성 정규화(Consistency Regularization)' 기법을 심도 있게 다룹니다.

핵심 포인트

반지도학습은 라벨링된 데이터와 비라벨링된 데이터를 모두 활용하여 모델의 성능을 향상시키는 접근 방식입니다.
훈련 손실 함수는 지도 학습 손실($ ext{L}_s$)과 가중치 $ ext{L}_u$가 적용된 비지도 손실($ ext{L}_u$)의 결합으로 구성됩니다.
반지도학습을 뒷받침하는 주요 가정들로는 'Smoothness Assumption'(근접한 데이터는 같은 라벨), 'Manifold Assumption'(데이터가 저차원 매니폴드에 존재) 등이 있습니다.
핵심 기법 중 하나인 '일관성 정규화(Consistency Regularization)'는 동일 입력의 변형(증강, Dropout 등)에도 모델 예측이 일관되도록 강제하여 $ ext{L}_u$를 구성합니다.

지도학습 과제에서 라벨링된 데이터 양이 제한적일 때 일반적으로 논의되는 네 가지 접근법이 있습니다.

Pre-training + fine-tuning: 대규모 비지도 데이터 코퍼스 (예: 무료 텍스트) 에서 강력한 과제의무관 모델을 사전 학습하고, 이후 소량의 라벨링 샘플로 downstream task 에 대해 미세 조정합니다. 또는 시각 모델은 비지도 이미지 데이터를 통해 자기지도학습을 통해 사전 학습합니다.

Semi-supervised learning: 라벨링된 샘플과 비라벨링된 샘플을 함께 학습합니다. 많은 연구가 이 접근법 내에서 시각 과제에 이루어졌습니다.

Active learning: 라벨링 비용이 높지만, 제한된 비용 예산 내에서 더 많은 데이터를 수집하고 싶습니다. Active learning 은 다음 수집할 가장 가치 있는 비라벨링 샘플을 선택하는 방법을 학습하여 제한된 예산으로 지능적으로 행동하는 데 도움을 줍니다.

Pre-training + dataset auto-generation: 능력 있는 사전 학습 모델을 주어진 경우, 이를 활용하여 훨씬 더 많은 라벨링된 샘플을 자동 생성할 수 있습니다. 이는 Few-shot learning 의 성공에 의해 언어 도메인에서 특히 인기가 있었습니다.

저는 "데이터가 부족한 학습"이라는 주제에 대한 시리즈를 작성할 계획입니다. Part 1 은 Semi-supervised Learning 입니다.

What is semi-supervised learning?

반지도수학습은 라벨링된 데이터와 비라벨링된 데이터를 모두 사용하여 모델을 훈련합니다.

흥미롭게도, 반지도수학습에 관한 대부분의 기존 문헌은 시각 과제를 중점적으로 다루고 있습니다. 반면 언어 과제에서는 Pre-training + fine-tuning 이 더 일반적인 패러다임입니다.

이 포스트에서 소개된 모든 방법은 두 부분의 손실을 결합한 Loss 를 가집니다: $\mathcal{L} = \mathcal{L}_s + \mu(t) \mathcal{L}_u$. 지도학습 손실 $\mathcal{L}_s$ 는 모든 라벨링된 예제에 의해 쉽게 얻을 수 있습니다. 우리는 비지도 손실 $\mathcal{L}_u$ 가 어떻게 설계되는지에 초점을 맞출 것입니다. 일반적인 가중치 항 $\mu(t)$ 의 선택은 훈련 단계 $t$ 에 따라 $\mathcal{L}_u$ 의 중요성을 증가시키는 Ramp function 입니다.

Disclaimer: 이 포스트는 모델 아키텍처 수정에 중점을 둔 반지도수학습 방법을 다루지 않습니다. Generative models 과 Graph-based methods 를 반지도수학습에 사용하는 방법에 대한 내용은 다음 Survey 를 확인하세요.

Notations

Symbol	Meaning
$L$	Unique labels 의 개수.
...

Hypotheses

문헌에서 반지도수학습 방법의 특정 설계 결정을 지원하기 위해 여러 가설이 논의되었습니다.

H1: Smoothness Assumptions: 특징 공간의 고밀도 영역에서 두 데이터 샘플이 가까우면, 그들의 라벨은 같거나 매우 유사해야 합니다.
H2: Cluster Assumptions: 특징 공간에는 밀집된 영역과 희석된 영역이 모두 존재합니다. 밀집된 그룹에 있는 데이터 포인트는 자연스럽게 클러스터를 형성합니다. 같은 클러스터에 있는 샘플은 동일한 라벨을 가질 것으로 기대됩니다. 이는 H1 의 작은 확장입니다.
H3: Low-density Separation Assumptions: 클래스 간의 결정 경계는 일반적으로 희석된, 저밀도 영역에 위치하는 경향이 있습니다. 그렇지 않으면 결정 경계가 하나의 고밀도 클러스터로 두 개의 클래스를 잘라내어, 이는 H1 과 H2 를 무효화하기 때문입니다.
H4:

Manifold Assumptions: 고차원 데이터는 저차원 매니폴드 (manifold) 위에 위치하는 경향이 있습니다. 실제 세계의 데이터가 매우 높은 차원에서 관찰될 수 있음에도 불구하고 (예: 실제 세계의 객체나 장면의 이미지), 특정 속성이 포착되고 유사한 점들이 밀집되도록 하는 더 낮은 차원의 매니폴드로 캡처할 수 있습니다 (예: 실제 세계의 객체나 장면의 이미지는 모든 픽셀 조합에 대해 균일 분포에서 추출되지 않습니다). 이는 라벨이 없는 데이터 포인트 간의 유사성을 발견하고 측정하기 위해 더 효율적인 표현을 학습하는 것을 가능하게 합니다. 또한, 표현 학습 (representation learning) 의 기초입니다. [도움이 되는 링크를 참조].

Consistency Regularization

Consistency Regularization, 또는 Consistency Training은 동일한 입력에 대해 신경망 내의 무작위성 (예: Dropout) 이나 데이터 증강 변환이 모델 예측을 변경해서는 안 된다고 가정합니다. 이 섹션의 모든 방법은 $
\mathcal{L}_u$로 일관성 정규화 손실을 사용합니다.

이 아이디어는 SimCLR, BYOL, SimCSE 등 여러 자기지도 학습 (self-supervised learning) 방법에서 채택되었습니다. 동일한 샘플의 다른 증강 버전은 동일한 표현을 생성해야 합니다. 언어 모델링의 크로스 뷰 (cross-view) 학습과 자기지도 학습의 멀티 뷰 (multi-view) 학습 모두 동일한 동기를 공유합니다.

Π-model

Sajjadi et al. (2016) 는 확률적 변환 (예: Dropout, 랜덤 최대 풀링) 을 적용한 네트워크를 두 번 통과하는 차이점을 최소화하는 비지도 학습 손실을 제안했습니다. 라벨은 명시적으로 사용되지 않으므로, 이 손실은 라벨이 없는 데이터셋에 적용할 수 있습니다. Laine & Aila (2017) 는 이러한 설정을 Π-Model이라는 이름으로 명명했습니다.

여기서 $f'$는 다른 확률적 증강 또는 드롭아웃 마스크가 적용된 동일한 신경망입니다. 이 손실은 전체 데이터셋을 활용합니다.

Temporal ensembling

Π-model 은 샘플당 네트워크를 두 번 실행하도록 요구하여 계산 비용을 2 배로 늘립니다. 비용 감소를 위해 Temporal Ensembling (Laine & Aila 2017) 은 학습 대상인 각 훈련 샘플 $ ilde{\mathbf{z}}_i$에 대해 시간당 모델 예측의 지수 이동 평균 (EMA) 을 유지합니다. 앙상블 출력 $ ilde{\mathbf{z}}_i$는 초기값이 $
\mathbf{0}$이기 때문에, 이 스타트업 편향을 수정하기 위해 $(1-\alpha^t)$로 정규화됩니다. Adam 옵티마이저도 동일한 이유로 이러한 편향 수정 항을 가지고 있습니다.

여기서 $ ilde{\mathbf{z}}^{(t)}$는 에폭 $t$에서의 앙상블 예측이고, $
\mathbf{z}_i$는 현재 라운드에서의 모델 예측입니다. $ ilde{\mathbf{z}}^{(0)} =
\mathbf{0}$이므로, 수정 후 $ ilde{\mathbf{z}}^{(1)}$은 에폭 1에서 단순히 $
\mathbf{z}_i$와 동등합니다.

Mean teachers

Temporal Ensembling 은 각 훈련 샘플에 대한 라벨 예측의 EMA 를 학습 대상으로 추적합니다. 그러나 이 라벨 예측은 각 에폭마다만 변경되어, 데이터셋이 크면 접근법이 어색해집니다. Mean Teacher (Tarvaninen & Valpola, 2017) 는 모델 출력 대신 모델 가중치의 이동 평균을 추적하여 타겟 업데이트의 느린 속도를 극복하기 위해 제안되었습니다. 가중치 $ heta$를 가진 원래 모델을 학생 (student) 모델이라고 하고, 연속된 학생 모델에 걸쳐 이동 평균 가중치 $ heta'$를 가진 모델을 mean teacher라고 부릅니다: $
\theta' \gets
\beta
\theta' + (1-\beta)
\theta$

학생과 교사가 예측한 값 사이의 거리가 student-teacher gap 이며, 이를 최소화해야 합니다. Mean teacher 는 학생보다 더 정확한 예측을 제공한다는 것이 기대됩니다. 이는 실험적 결과에서 확인되었는데, 다음과 같이 보입니다.

그들의 아블레이션 (ablation) 연구에 따르면,

입력 증강 (예: 입력 이미지 랜덤 회전, 가우시안 노이즈) 또는 학생 모델 드롭아웃은 좋은 성능을 위해 필수적입니다. 교사 모델에는 드롭아웃이 필요 없습니다.
EMA decay 하이퍼파라미터 $eta$ 에 대한 성능 민감도가 높습니다. 좋은 전략은 ramp up 단계에서 작은 $eta=0.99$ 를 사용하고, 학생 모델 개선이 느려지는 후기 단계에서는 더 큰 $eta=0.999$ 를 사용하는 것입니다.
MSE 를 일관성 비용 함수로 사용할 때 다른 비용 함수 (예: KL divergence) 보다 더 좋다는 것을 발견했습니다.

노이즈 샘플을 학습 대상으로 하는 방법

최근 몇 가지 일관성 훈련 방법은 원본 라벨 없는 샘플과 해당 증강 버전 사이의 예측 차이를 최소화하도록 학습합니다. 이는 Π-model 과 매우 유사하지만, 일관성 정규화 손실은 라벨 없는 데이터에만 적용됩니다.

Adversarial Training (Goodfellow et al. 2014) 은 입력에 적대적 노이즈를 적용하여 모델이 이러한 적대적 공격에 견고하게 훈련되도록 합니다. 이 설정은 supervised learning 에서 작동하며,

여기서 $q(y \

VAT 와 유사하게, 비지도 데이터 증강 (Unsupervised Data Augmentation; UDA) (Xie et al. 2020) 은 라벨이 없는 예제와 증강된 예제에 대해 동일한 출력을 예측하도록 학습합니다. UDA 는 특히 일관성 훈련 (consistency training) 을 통해 노이즈의 *

AI 자동 생성 콘텐츠

원문 바로가기