Lilian헤드라인2026. 05. 07. 18:10

데이터가 부족한 학습: Part 2 - 능동 학습

요약

본 글은 라벨링 데이터가 부족한 상황에서 모델 성능 향상을 극대화하기 위한 '능동 학습(Active Learning)' 기법에 대해 설명합니다. 능동 학습은 주어진 예산 내에서 가장 가치 있는 샘플을 선택하여 인간의 라벨링 작업을 수행하는 지능적인 전략입니다. 핵심 개념인 '획득 함수(Acquisition Function)'를 중심으로, 불확실성 기반 샘플링(엔트로피, 마진 점수 등), 위원회 기반 접근법(QBC), 데이터 다양성 확보(Diversity Sampling) 등의 다양한 샘플링 전략을 심도 있게 다룹니다.

핵심 포인트

능동 학습은 제한된 라벨링 예산 내에서 모델 성능 향상을 최대화하기 위해 가장 가치 있는 데이터를 선택하는 과정입니다.
획득 함수(Acquisition Function)는 어떤 샘플이 모델 훈련에 가장 큰 가치를 제공할지 점수화하는 핵심 지표입니다.
불확실성 기반 전략으로는 엔트로피, 마진 점수 등이 있으며, 이는 모델의 예측 불확실성을 측정합니다.
Query-By-Committee (QBC)는 여러 전문가 모델(committee) 간의 의견 불일치 정도를 활용하여 불확실성을 측정하는 방법입니다.
다양성 샘플링은 선택된 데이터가 전체 잠재적 분포를 잘 대표할 수 있도록 하는 데 중점을 둡니다.

이 글은监督学习 (supervised learning) 작업에 대해 제한된 라벨링 데이터량을 마주했을 때 무엇을 해야 하는지에 대한 시리즈의 제 2 부입니다. 이번에는 일정한 라벨링 비용 예산 내에서 인간 라벨링 작업을 일부 포함시키되, 어떤 샘플을 라벨링할지 선택하는 것이 얼마나 지능적이어야 하는지를 고려해야 합니다.

표기법

기호	의미
$K$	고유 클래스 레이블의 개수.
...

능동 학습 (Active Learning)이란?

라벨링되지 않은 데이터셋 $\mathcal{U}$ 와 고정된 라벨링 비용 예산 $B$ 가 주어졌을 때, 능동 학습은 모델 성능 향상을 최대화할 수 있도록 $\mathcal{U}$ 에서 $B$ 개의 예제를 선택하는 것을 목표로 합니다. 이는 데이터 라벨링이 어렵고 비용이 많이 드는 경우 (예: 의료 이미지) 특히 효과적인 학습 방법입니다. 2010 년의 이 고전적인 리뷰 논문은 많은 핵심 개념을 나열합니다. 일부 전통적인 접근법은 딥러닝에는 적용되지 않을 수 있지만, 이 포스트의 논의는 주로 딥 뉴럴 모델과 배치 모드 (batch mode) 훈련에 초점을 맞춥니다.

논의를 단순화하기 위해, 모든 섹션에서 작업이 $K$-클래스 분류 문제라고 가정합니다. 파라미터 $ heta$ 를 가진 모델은 라벨 후보에 대한 확률 분포를 출력하며, 이는 또는 아니면 교정되지 않은 (calibrated) 것일 수 있습니다, $P_ heta(y \vert \mathbf{x})$ 그리고 가장 유력한 예측은 $\hat{y} = \arg\max_{y \in \mathcal{Y}} P_ heta(y \vert \mathbf{x})$ 입니다.

획득 함수 (Acquisition Function)

가장 가치 있는 예제를 라벨링할 다음 단계로 식별하는 과정은 "샘플링 전략" 또는 "쿼리 전략"이라고 불립니다. 샘플링 과정의 점수 함수는 "획득 함수"로 명명되며, $U(\mathbf{x})$ 로 표시됩니다. 더 높은 점수를 가진 데이터 포인트가 라벨링되면 모델 훈련에 더 큰 가치를 생성할 것으로 기대됩니다.

여기에는 기본 샘플링 전략 목록이 있습니다.

불확실성 샘플링 (Uncertainty Sampling)

불확실성 샘플링은 모델이 가장 불확실한 예측을 생성하는 예제를 선택합니다. 단일 모델을 가진 경우, 불확실성은 예측 확률로 추정할 수 있지만, 일반적인 불만은 딥러닝 모델의 예측은 종종 교정되지 않았으며 실제 불확실성과 잘 상관관계가 없음을 지적합니다. 사실, 딥러닝 모델은 일반적으로 과신심 (overconfident) 입니다.

가장 유력하지 않은 점수, 또한 변동 비율 (variation ratio): $U(\mathbf{x}) = 1 - P_ heta(\hat{y} \vert \mathbf{x})$.마진 점수 (Margin score): $U(\mathbf{x}) = P_ heta(\hat{y}1 \vert \mathbf{x}) - P heta(\hat{y}2 \vert \mathbf{x})$, 여기서 $\hat{y}1$ 과 $\hat{y}2$ 는 가장 유력한 예측 레이블과 두 번째 유력한 예측 레이블입니다.엔트로피 (Entropy): $U(\mathbf{x}) = \mathcal{H}(P heta(y \vert \mathbf{x})) = - \sum{y \in \mathcal{Y}} P heta(y \vert \mathbf{x}) \log P_ heta(y \vert \mathbf{x})$.

불확실성을 정량화하는 또 다른 방법은 전문가 모델의 위원회 (committee) 를 의존하는 것으로, 이를 쿼리 바이 위원회 (Query-By-Committee, QBC) 라고 합니다. QBC 는 의견 풀을 기반으로 불확실성을 측정하므로 위원회 구성원 간의 불일치 수준을 유지하는 것이 중요합니다. 위원회 풀에 $C$ 개의 모델이 주어졌으며, 각각 $\theta_1, \dots, \theta_C$ 로 파라미터화됩니다.

투표자 엔트로피 (Voter entropy): $U(\mathbf{x}) = \mathcal{H}(\frac{V(y)}{C})$, 여기서 $V(y)$ 는 위원회가 레이블 $y$ 에 대한 투표 수를 세웁니다.합의 엔트로피 (Consensus entropy): $U(\mathbf{x}) = \mathcal{H}(P_\mathcal{C})$, 여기서 $P_\mathcal{C}$ 는 위원회 전체에 걸쳐 평균화된 예측입니다.KL 발산 (KL divergence): $U(\mathbf{x}) = \frac{1}{C} \sum_{c=1}^C D_ ext{KL} (P\ heta_c | P\mathcal{C})$

Diversity sampling은 전체 데이터 분포를 잘 대표할 수 있는 샘플 컬렉션을 찾는 것을 목표로 합니다. 다양성은 모델이 야생의 어떤 데이터에서도 잘 작동할 것으로 기대되기 때문에 중요합니다. 그러나 좁은 부분집합에서는 그렇지 않습니다. 선택된 샘플들은 잠재적 분포를 대표해야 합니다. 일반적인 접근법은 샘플 간의 유사성을 정량화하는 데 의존합니다.

Expected Model Change

Expected model change는 샘플이 모델 훈련에 미치는 영향을 의미합니다. 영향은 모델 가중치에 대한 영향이나 훈련 손실의 개선일 수 있습니다. 선택된 데이터 샘플에 의해 유발된 모델 영향력을 측정하는 방법에 대한 여러 작업은 후속 섹션에서 검토됩니다.

Hybrid Strategy

위의 많은 방법은 상호 배타적이지 않습니다. Hybrid 샘플링 전략은 데이터 포인트의 다양한 속성을 가치 있게 여기며, 다른 샘플링 선호도를 하나로 결합합니다. 우리는 종종 불확실하지만 또한 매우 대표적인 샘플을 선택하고 싶습니다.

Deep Acquisition Function

Measuring Uncertainty

모델 불확실성은 일반적으로 두 가지 버킷으로 분류됩니다 (Der Kiureghian & Ditlevsen 2009, Kendall & Gal 2017):

Aleatoric uncertainty는 데이터의 노이즈 (예: 센서 데이터, 측정 과정의 노이즈) 로 인해 도입되며, 입력에 의존하거나 입력에 독립적일 수 있습니다. 일반적으로 불완전한 정보로 인해 ground truth 에 대한 정보가 부족하므로 이를 줄이는 것은 불가능하다고 간주됩니다.Epistemic uncertainty는 모델 파라미터 내의 불확실성을 지칭하며, 따라서 모델이 데이터를 가장 잘 설명할 수 있는지 알지 못합니다. 이 유형의 불확실성은 더 많은 데이터가 주어진 경우 이론적으로 감소 가능합니다.

Ensemble and Approximated Ensemble

머신러닝에는 모델 성능을 개선하기 위해 앙상블을 사용하는 오랜 전통이 있습니다. 모델 간 상당한 다양성이 있을 때, 앙상블은 더 좋은 결과를 기대합니다. 이 앙상블 이론은 많은 ML 알고리즘에 의해 증명되었습니다; 예를 들어 AdaBoost 는 약한 학습자를 여러 개 합쳐서 단일 강력한 학습자와 유사하거나 심지어 더 나은 성능을 수행합니다. Bootstrapping 은 지표의 더 정확한 추정을 위해 재표본 추출의 여러 번 실행을 수행합니다. Random forests 나 GBM 또한 앙상블링의 효과성에 대한 좋은 예입니다.

더 나은 불확실성 추정을 얻기 위해서는 독립적으로 훈련된 모델 컬렉션을 집계하는 것이 직관적입니다. 그러나 단일 딥 뉴럴 네트워크 모델을 훈련하는 것은 비싸며, 더不用说 여러 개입니다. 강화학습에서 Bootstrapped DQN (Osband, et al. 2016) 은 여러 개의 가치 헤드를 갖추고 있으며, Q 값 근사치의 앙상블 간의 불확실성에 의존하여 RL 탐색을 안내합니다.

활성 학습에서는 dropout 을 사용하여 확률적 Gaussian process 를 "시뮬레이션"하는 것이 일반적인 접근법입니다 (Gal & Ghahramani 2016). 따라서 우리는 동일한 모델에서 수집된 여러 샘플을 앙상블화하지만, 전방 전달 단계 동안 다른 dropout mask 가 적용되어 모델 불확실성 (epistemic uncertainty) 을 추정합니다. 이 과정은 MC dropout (Monte Carlo dropout) 으로 명명되며, 모든 가중치 레이어 전에 dropout 이 적용되고 확률적 딥 Gaussian process 의 근사치에 수학적으로 동등하다고 승인됩니다 (Gal & Ghahramani 2016). 이 간단한 아이디어는 소규모 데이터셋과 분류에 효과적임이 입증되었으며, 효율적인 모델 불확실성 추정이 필요한 시나리오에서 널리 채택되었습니다.

DBAL (Deep Bayesian active learning; Gal et al. 2017) 는 MC dropout 을 사용하여 베이지안 신경망을 근사하고 모델 가중치에 대한 분포를 학습합니다. 그들의 실험에서 MC dropout 은 랜덤 기준선과 평균 표준 편차 (Mean STD), 유사하게 변이 비율과 엔트로피 측정과 함께 더 나은 성능을 보였습니다.

Beluch et al. (2018) 은 앙상블 기반 모델과 MC dropout 을 비교하여, 단순 앙상블 (각각 독립적으로 여러 모델을 훈련하는 방식) 과 변이 비율의 조합이 다른 방법들보다 더 잘 교정된 예측을 얻었다는 것을 발견했습니다. 그러나 단순 앙상블은 매우 비싸므로, 그들은 몇 가지 대안적인 저렴한 옵션을 탐구했습니다:

Snapshot ensemble: 순환 학습률 스케줄을 사용하여 명시적 앙상블이 다른 로컬 최소점에 수렴하도록 훈련합니다.
Diversity encouraging ensemble (DEE): $n$ 개의 서로 다른 네트워크를 위해 소수의 에포크로 훈련된 기본 네트워크를 초기화하고, 각 네트워크는 dropout 을 사용하여 다양성을 유도합니다.
Split head approach: 하나의 기본 모델에 여러 헤드가 있으며, 각각 분류기에 해당합니다.

불행히도 위의 모든 저렴한 명시적 앙상블 옵션은 단순 앙상블보다 성능이 더 나쁩니다. 계산 자원의 제한을 고려할 때, MC dropout 은 여전히 매우 좋은 경제적 선택입니다. 자연스럽게 사람들은 또한 확률적 앙상블을 통해 추가적인 성능 향상을 얻기 위해 앙상블과 MC dropout 을 결합하려고 합니다 (Pop & Fulop 2018).

Parameter Space 의 불확실성

Bayes-by-backprop (Blundell et al. 2015) 은 신경망의 가중치 불확실성을 직접 측정합니다. 이 방법은 $p(oldsymbol{w} \vert \mathcal{D})$ 가 직접적으로 tractable 하지 않기 때문에, 가중치 $oldsymbol{w}$ 에 대한 확률 분포를 유지하며, 이를 변분 분포 $q(\boldsymbol{w} \vert \theta)$ 로 모델링합니다. 손실은 $q(\boldsymbol{w} \vert \theta)$ 와 $p(\boldsymbol{w} \vert \mathcal{D})$ 사이의 KL 발산을 최소화하는 것입니다,

변분 분포 $q$ 는 일반적으로 대각선 공분산이 있는 가우시안이며, 각 가중치는 $oldsymbol{\mathcal{N}}(\mu_i, \sigma_i^2)$ 에서 샘플링됩니다. $oldsymbol{\sigma}_i$ 의 비음성을 보장하기 위해, softplus 를 통해 추가적으로 파라미터화되며, $oldsymbol{\sigma}i = \log(1 + \exp(\rho_i))$ 입니다. 여기서 변분 파라미터는 $ heta = {\mu_i , \rho_i}^d{i=1}$ 입니다.

Bayes-by-backprop 의 과정은 다음과 같이 요약할 수 있습니다:

$\epsilon \sim \mathcal{N}(0, I)$ 샘플링
$\boldsymbol{w} = \mu + \log(1+ \exp(\rho)) \circ \epsilon$ 설정
$\theta = (\mu, \rho)$ 설정
$f(\boldsymbol{w}, \theta) = \log q(\boldsymbol{w} \vert \theta) - \log p(\boldsymbol{w})p(\mathcal{D}\vert \boldsymbol{w})$ 설정
$\mu$ 와 $\rho$ 에 대한 $f(\boldsymbol{w}, \theta)$ 의 기울기를 계산하고, 그 다음 $\theta$ 를 업데이트합니다.
추론 시 다른 모델 가중치를 샘플링하여 불확실성을 측정합니다.

손실 예측

손실 목적은 모델 훈련을 안내합니다. 낮은 손실 값은 모델이 좋은 정확한 예측을 할 수 있음을 나타냅니다. Yoo & Kweon (2019) 은 라벨 없는 입력에 대한 손실 값을 예측하는 손실 예측 모듈을 설계했습니다, 이는 주어진 데이터에서 모델 예측이 얼마나 좋은지 추정하기 위해. 데이터 샘플은 손실 예측 모듈이 불확실한 예측 (높은 손실 값) 을 만들 때 선택됩니다. 손실 예측 모듈은 dropout 을 포함한 간단한 MLP 로, 여러 중간 레이어 기능을 입력으로 받아 전역 평균 풀링 후 연결합니다.

손 (loss) 예측 모듈의 출력은 $\ ilde{l}$ 이며, 실제 손은 $l$ 입니다. 손 예측 모듈을 학습할 때, 단순한 MSE 손 $(l - \hat{l})^2$ 은 좋은 선택이 아닙니다. 이는 모델이 더 나은 행동을 배우면서 시간이 지남에 따라 손이 감소하기 때문입니다. 좋은 학습 목표는 목표 손의 스케일 변화에 독립적이어야 합니다. 대신, 그들은 샘플 쌍의 비교를 사용합니다. 크기 $b$ 의 배치 내에는 $b/2$ 개의 샘플 쌍 $(\mathbf{x}_i, \mathbf{x}_j)$ 이 있으며, 손 예측 모델은 어떤 샘플이 더 큰 손 값을 가지는지 올바르게 예측할 것으로 기대됩니다.

여기서 $\ ilde{l}$ 은 미리 정의된 양의 마진 상수입니다.

세 가지 컴퓨터 비전 작업에서 실험한 결과, 손 예측 기반 활성 학습 선택은 랜덤 베이스라인, 엔트로피 기반 획득 (acquisition), 그리고 코어셋에 비해 더 좋은 성능을 보입니다.

적대적 설정 (Adversarial Setup)

Sinha et al. (2019) 는 VAAL (Variational Adversarial Active Learning)이라는 이름의 GAN-like 설정을 제안했습니다. 여기서 디스크리미네이터는 라벨이 없는 데이터와 라벨이 있는 데이터를 구분하도록 학습됩니다. 흥미롭게도, VAAL 에서 활성 학습 획득 기준은 작업 성능에 의존하지 않습니다.

$eta$-VAE 는 라벨이 있는 데이터 ($\mathbf{z}^l$) 와 라벨이 없는 데이터 ($\mathbf{z}^u$) 에 대해 잠재 특징 공간 $\mathbf{z}^l \cup \mathbf{z}^u$ 를 학습합니다. 이는 디스크리미네이터 $D(.)$ 가 모든 데이터 포인트가 라벨 풀 (label pool) 에서 온 것처럼 속이는 것을 목표로 합니다.
디스크리미네이터 $D(.)$ 는 잠재 표현 ($\mathbf{z}$) 을 기반으로 샘플이 라벨이 있는지 (1) 아니면 아닌지 (0) 예측합니다. VAAL 은 낮은 디스크리미네이터 점수를 가진 라벨 없는 샘플을 선택하며, 이는 해당 샘플들이 기존에 라벨링된 데이터와 충분히 다르다는 것을 의미합니다.

VAAL 의 VAE 표현 학습 손에는 재구성 부분 (주어진 샘플의 ELBO 를 최소화) 과 적대적 부분 (라벨이 있는 데이터와 라벨이 없는 데이터가 동일한 확률 분포 $q_\phi$ 에서 추출됨) 가 모두 포함됩니다:

여기서 $p(\mathbf{\tilde{z}})$ 는 미리 정의된 사전으로 단위 가우시안이며, $\beta$ 는 라그랑주 파라미터입니다.

디스크리미네이터 손은 다음과 같습니다:

Ablation studies 는 VAE 와 디스크리미네이터를 함께 학습하는 것이 필수적임을 보여줍니다. 그들의 결과는 편향된 초기 라벨 풀, 다른 라벨링 예산 (budget), 그리고 노이즈 오라클에 대해 견고합니다.

MAL (Minimax Active Learning; Ebrahimiet al. 2021) 은 VAAL 의 확장입니다. MAL 프레임워크는 엔트로피 최소화 특징 인코딩 네트워크 $F$ 를 엔트로피 최대화 분류기 $C$ 로 이어집니다. 이 미니맥스 설정은 라벨이 있는 데이터와 라벨이 없는 데이터 간의 분포 격차를 줄입니다.

특징 인코더 $F$ 는 샘플을 $\ell_2$-노멀라이즈된 $d$ 차원 잠재 벡터로 인코딩합니다. 클래스가 $K$ 개 있다고 가정할 때, 분류기 $C$ 는 $\mathbf{W} \in \mathbb{R}^{d \times K}$ 로 파라미터화됩니다.

(1) 먼저 $F$ 와 $C$ 는 단순한 크로스 엔트로피 손으로 라벨이 있는 샘플에 대해 학습하여 좋은 분류 결과를 달성합니다,
(2) 라벨이 없는 예제에 대해 학습할 때, MAL은 minimax 게임 설정을 사용합니다.

여기서,

먼저 $F$ 에서 엔트로피를 최소화하면 예측된 라벨이 유사한 라벨이 있는 라벨이 없는 샘플들이 유사한 특징을 가도록 장려합니다.
$C$ 에서 엔트로피를 최대화하는 적대적 행동은 예측이 더 균일한 클래스 분포를 따르도록 만듭니다. (여기서 저의 이해는, 라벨이 없는 샘플의 실제 라벨이 알려지지 않았으므로 분류기를 예측된 라벨을 최대화하도록 최적화하지 않아야 한다는 것입니다.)

디스크리미네이터는 VAAL 과 동일한 방식으로 학습됩니다.

MAL 의 샘플링 전략은 다양성과 불확실성을 모두 고려합니다:

AI 자동 생성 콘텐츠

원문 바로가기