DomainBed 논문 해설: 도메인 일반화 연구에서의 평가 설계 문제

본 기사에서는 Gulrajani and Lopez-Paz의 논문 In Search of Lost Domain Generalization을 다룬다. 이후부터는 본 논문을 DomainBed 논문이라 부른다.

머신러닝 (Machine Learning) 모델은 학습할 때와 동일한 분포에서 얻은 데이터에 대해서는 높은 성능을 보이는 반면, 분포가 바뀌면 급격히 성능을 떨어뜨리는 경우가 있다. 이미지 인식이라면 배경, 촬영 조건, 스타일, 센서, 지역, 시설 등이 바뀌는 것만으로도 모델의 거동은 크게 변화할 수 있다. 의료 영상이라면 특정 병원의 데이터로 학습한 모델이 다른 병원의 데이터에는 제대로 일반화되지 않을 수 있다. 자율 주행이라면 날씨나 광 조건, 물체의 자세가 바뀌는 것만으로도 인식 성능이 저하될 가능성이 있다.

이러한 문제는 단순히 데이터 수가 부족하다는 차원의 문제가 아니다. 모델이 레이블 (Label)과 본질적으로 관계있는 특징이 아니라, 학습 도메인 (Domain)에서 우연히 성립했던 가짜 상관관계 (Spurious Correlation) 에 의존해 버리기 때문이다. 예를 들어, 물체 자체가 아니라 배경에 의존하거나, 형태가 아니라 질감 (Texture) 에 의존하거나, 질환이 아니라 시설 고유의 촬영 조건에 의존하는 현상이다. 학습 분포 내부에서는 그럼에도 높은 정확도가 나올지도 모른다. 하지만 분포가 바뀌는 순간, 그 상관관계는 무너진다.

이 문제에 대해 연구되어 온 것이 도메인 일반화 (Domain Generalization) 이다. 도메인 일반화에서는 학습 시에 여러 도메인으로부터 얻은 데이터를 사용한다. 그리고 이러한 학습 도메인에 공통되는 구조를 포착함으로써, 미지의 테스트 도메인 (Test Domain) 에도 일반화되는 모델을 얻는 것을 목표로 한다. 여기서 중요한 점은 테스트 도메인의 데이터를 학습 시에 이용할 수 없다는 점이다. 따라서 도메인 일반화 알고리즘은 학습 도메인 사이에 보이는 어떠한 불변성 (Invariance) 이 미지의 도메인에서도 성립하기를 기대하며 설계된다.

이 문제 설정은 중요하다. 현실의 머신러닝 응용에서는 학습 시에 관측한 분포와 실제 운용 시에 나타나는 분포가 완전히 일치한다고 단정할 수 없다. 오히려 측정 환경, 사용자층, 시설, 지역, 시간, 장치, 운용 조건 등의 차이로 인해 어떠한 분포 차이가 발생하는 것이 자연스럽다. 그런 의미에서 도메인 일반화는 현실 세계에서 모델을 사용하는 데 있어 피할 수 없는 문제를 다루고 있다.

하지만 도메인 일반화 연구에는 큰 어려움이 있다. 지금까지 많은 알고리즘이 제안되어 왔지만, 그것들이 반드시 동일한 조건에서 비교되어 온 것은 아니다. 사용하는 데이터셋, 네트워크 아키텍처 (Network Architecture), 데이터 증강 (Data Augmentation), 하이퍼파라미터 (Hyperparameter) 탐색, 모델 선택 기준이 논문마다 다르다면, 얻어진 성능 차이가 정말로 알고리즘의 차이에서 기인한 것인지, 아니면 평가 조건의 차이에서 기인한 것인지 판단하기 어렵다.

특히 중요한 것이 모델 선택 (Model Selection) 이다. 통상적인 지도 학습 (Supervised Learning) 에서는 학습 데이터와 동일한 분포에서 얻은 검증 데이터 (Validation Data) 를 사용하여 하이퍼파라미터나 체크포인트 (Checkpoint) 를 선택하는 경우가 많다. 하지만 도메인 일반화에서는 최종적으로 평가하고 싶은 것이 미지의 도메인 상에서의 성능이다. 그렇다면 미지의 도메인 데이터를 사용할 수 없는 상황에서 어떤 모델을 선택해야 하는가? 이 질문은 단순한 실험상의 세부 사항이 아니다. 도메인 일반화에서의 모델 선택은 그 자체로 「학습 도메인과 테스트 도메인의 관계를 어떻게 가정할 것인가」 라는 문제를 포함하고 있다.

이 점을 정면으로 다룬 것이 바로 DomainBed 논문이다. 본 논문은 새로운 도메인 일반화 알고리즘을 제안하는 논문이 아니다. 오히려 기존의 대표적인 도메인 일반화 알고리즘을 통일된 조건 아래에서 비교하기 위한 평가 프로토콜 (Evaluation Protocol) 을 구축하고, 「도메인 일반화 알고리즘은 현실적인 평가 설정에서 어느 정도 유용한가」를 검증한 논문이다. 논문에서는 7개의 멀티 도메인 데이터셋, 9개의 대표적 알고리즘, 3개의 모델 선택 기준을 사용하여 비교를 수행했다. 나아가, 모델 선택 전략을 동반하지 않는 도메인 일반화 알고리즘은 불완전하다 라는 강력한 주장도 제시하고 있다.

그 결과는 도메인 일반화 연구에 대해 중요한 문제 제기 를 하는 것이었다. 신중하게 구현된 경험 위험 최소화 (ERM, Empirical Risk Minimization) 는 기존 연구에서 보고되었던 많은 결과를 상회하였으며, 동일한 조건으로 비교했을 때도 대표적인 도메인 일반화 기법은 ERM을 명확하게 뛰어넘지 못했다. 이는 도메인 일반화가 불필요하다는 의미가 아니다. 오히려 OOD (Out-of-Distribution) 일반화를 논하기 위해서는 먼저 강력한 베이스라인 (Baseline), 타당한 모델 선택, 재현 가능한 평가 프로토콜을 준비해야 한다는 것을 보여준다.

본 기사에서는 이 DomainBed 논문을 "ERM이 강력했다"라는 단순한 결과로서가 아니라, 도메인 일반화 (Domain Generalization) 연구에서의 평가 설계 문제를 가시화한 논문으로서 읽는다. 이후에는 먼저 도메인 일반화의 문제 설정을 정리하고, 다음으로 대표적인 기법들이 어떤 불변성 (Invariance)을 가정하고 있는지 확인한다. 그 위에 본 논문의 핵심인 모델 선택 문제, DomainBed의 평가 프로토콜, 그리고 실험 결과로부터 얻을 수 있는 교훈을 차례대로 살펴본다.

1. 도메인 일반화의 문제 설정

도메인 일반화를 생각하기 전에, 먼저 일반적인 지도 학습 (Supervised Learning) 설정을 확인한다.

입력 공간을 $\mathcal{X}$, 출력 공간을 $\mathcal{Y}$, 예측기를 $f: \mathcal{X} \to \mathcal{Y}$라고 쓰면, 입력은 $x \in \mathcal{X}$로 주어진다. 딥러닝에서는 이 예측기를 종종 $f(x; \theta)$와 같이 분해하여 생각한다. 여기서 $\theta$는 모델의 파라미터 (Parameter)를 의미한다.

보충: 합성함수의 읽는 법

합성함수의 표기법에서는 오른쪽의 함수부터 순서대로 적용된다. 따라서 $f(g(x))$라고 썼을 때, 입력은 $x$이다. 즉, 처리 순서는 $x \to g(x) \to f(g(x))$가 된다. 여기서 $g(x)$를 $u$라고 하면 $f(u)$가 된다.

1.1 일반적인 지도 학습과 ERM

지도 학습의 목적은 미지의 데이터에 대해 작은 예측 오차를 달성하는 것이다. 손실 함수 (Loss Function)를 $\ell(f(x), y)$라고 하면, 이상적으로는 모집단 리스크 (Population Risk) $\mathbb{E}{(x, y) \sim \mathcal{P}} [\ell(f(x), y)]$를 최소화하는 예측기 $f$를 찾는 것이다. 하지만 실제로는 분포 $\hat{\mathcal{P}}$에서 얻은 데이터에 대한 경험 리스크 (Empirical Risk) $\hat{\mathbb{E}}{(x, y) \sim \hat{\mathcal{P}}} [\ell(f(x), y)]$를 최소화한다.

이러한 사고방식이 경험 리스크 최소화 (ERM, Empirical Risk Minimization)이다.

ERM은 매우 단순한 원리이다. 학습 데이터 상의 평균 손실을 낮춘다. 그뿐이다.

단, 여기에는 암묵적인 전제가 있다. 학습 데이터와 테스트 데이터가 동일한 분포, 혹은 적어도 충분히 가까운 분포로부터 얻어졌다는 전제이다. 이 전제가 성립한다면 학습 데이터 상의 경험 리스크를 낮추는 것은 테스트 데이터 상의 리스크를 낮추는 것의 근사로서 의미를 갖는다.

문제는 이 전제가 현실에서는 자주 깨진다는 점이다.

예를 들어, 이미지 분류 모델을 특정 촬영 환경의 데이터로 학습했다 하더라도, 테스트 시에는 다른 카메라, 다른 조명, 다른 배경, 다른 지역, 다른 스타일의 이미지가 나타날 수 있다. 의료 영상이라면 학습 시의 병원과 운용 시의 병원이 다를 수 있다. 자연어 처리라면 학습 시와는 다른 시기, 매체, 사용자층의 텍스트가 입력될 수 있다.

이처럼 학습 시와 테스트 시에 분포가 변화하는 상황에서는 일반적인 ERM만으로 충분한지가 문제가 된다.

1.2 도메인 일반화란 무엇인가

도메인 일반화에서는 학습 시에 여러 도메인으로부터 얻은 데이터를 이용할 수 있다고 가정한다.

여기서 도메인이란, 동일한 예측 태스크에 관한 데이터이지만 분포가 다른 데이터 집합을 가리킨다. 이미지 분류라면 사진, 스케치, 카툰, 회화 등이 서로 다른 도메인이 될 수 있다. 의료 영상이라면 병원이나 촬영 장치의 차이가 도메인이 될 수 있다. 자율 주행이라면 도시, 날씨, 시간대, 도로 환경 등이 도메인이 될 수 있다.

각 도메인을 $\mathcal{D}_i$라고 하자. 학습 시에는 여러 학습 도메인 $\mathcal{D}1, \dots, \mathcal{D}K$를 이용한다. 한편, 최종적으로 성능을 내고 싶은 것은 학습 시에는 관측하지 못한 미지의 테스트 도메인 $\mathcal{D}{test}$이다. 이 미지 도메인을 $\mathcal{D}{unseen}$이라고 하자.

도메인 일반화의 목적은 학습 도메인에서 얻은 데이터만을 사용하여 미지 도메인 $\mathcal{D}{unseen}$에 대해 잘 작동하는 모델을 만드는 것이다. 즉, 목표는 $\mathbb{E}{(x, y) \sim \mathcal{D}_{unseen}} [\ell(f(x), y)]$를 작게 만드는 것이다.

단, 여기서 결정적으로 중요한 것은 학습 시에는 $\mathcal{D}_{unseen}$을 직접 관측할 수 없다는 점이다. 따라서 도메인 일반화에서는 미지 도메인 그 자체를 직접 관측하지 않고, 학습 도메인들 사이에 보이는 정보만을 통해 미지 도메인에도 통용되는 구조를 추정해야 한다.

이때 암묵적으로 필요해지는 것이 **불변성 (Invariance)**의 가정이다.

학습 도메인과 테스트 도메인이 완전히 무관하다면 미지 도메인으로의 일반화는 원리적으로 불가능하다. 따라서 도메인 일반화가 성립하기 위해서는 적어도 어떤 의미에서 학습 도메인과 테스트 도메인 사이에 공통된 구조가 존재한다고 가정할 필요가 있다.

예를 들어 다음과 같은 가정들이다.

라벨을 결정하는 본질적인 특징은 도메인을 넘어 변하지 않는다.
도메인에 따라 변하는 것은 배경이나 스타일 같은 비본질적인 특징이다.
여러 학습 도메인에 공통적으로 유효한 예측 규칙은 미지 도메인에서도 유효하다.
도메인 간에 변하는 특징을 버리고, 변하지 않는 특징을 사용하면 일반화할 수 있다.

도메인 일반화 알고리즘의 차이는 많은 경우 이 "무엇이 불변하다고 가정할 것인가"의 차이로 이해할 수 있다.

1.3 도메인 적응과의 차이

도메인 일반화와 매우 유사한 문제 설정으로 도메인 적응 (Domain Adaptation)이 있다. 두 가지는 혼동되기 쉽지만 중요한 차이가 있다.

도메인 적응에서는 학습 시에 테스트 도메인의 데이터를 어떤 형태로든 이용할 수 있다. 특히, 비지도 도메인 적응 (Unsupervised Domain Adaptation)에서는 테스트 도메인의 라벨이 없는 데이터를 이용할 수 있다고 가정한다.

반면, 도메인 일반화 (Domain Generalization)에서는 테스트 도메인의 데이터를 학습 시에 일절 이용할 수 없다. 라벨이 있는 데이터뿐만 아니라, 라벨이 없는 데이터도 사용할 수 없다.

이 차이는 매우 크다.

비지도 도메인 적응 (Unsupervised Domain Adaptation)이라면, 적어도 테스트 도메인의 입력 분포를 볼 수 있다. 따라서 학습 도메인과 테스트 도메인의 특징 분포 (Feature Distribution)를 가깝게 만들거나, 테스트 도메인에 맞춰 표현 (Representation)을 조정하는 등의 전략을 취할 수 있다.

하지만 도메인 일반화에서는 테스트 도메인의 입력 분포조차 관측할 수 없다. 그러므로 학습 도메인 간의 변동만을 단서로 삼아, 미지의 도메인에서도 통용되는 예측기 (Predictor)를 구성해야 한다.

이 관계를 정리하면 다음과 같다.

*각 학습 문제 설정을 정리한 표 *

일반적인 지도 학습 (Supervised Learning)에서는 학습 데이터와 테스트 데이터가 동일한 분포에서 나올 것을 기대한다. 도메인 적응에서는 테스트 도메인의 데이터를 일부 이용하면서 분포 차이에 대응한다. 이에 반해, 도메인 일반화에서는 미지의 도메인 데이터를 사용하지 않고 미지의 도메인에 대한 일반화를 목표로 한다.

그런 의미에서, 도메인 일반화는 더 제약이 강한 문제 설정이다.

그리고 이 제약의 강함이야말로, 이후에 살펴볼 모델 선택의 어려움으로 이어진다. 일반적인 지도 학습이라면 테스트 분포에 가까운 검증 데이터 (Validation Data)를 사용하여 모델을 선택할 수 있다. 하지만 도메인 일반화에서는 미지의 도메인 데이터를 이용할 수 없다. 그렇다면 어떤 검증 성능 (Validation Performance)을 믿고 모델을 선택해야 하는가.

이 질문이 DomainBed 논문의 핵심적인 문제 의식이다.

2. 도메인 일반화 기법은 무엇을 가정하고 있는가

전장에서 도메인 일반화를 '학습 시에 관측하지 않은 미지의 도메인 위에서 예측 리스크 (Prediction Risk)를 낮추는 문제'로 정식화했다. 여기서 중요한 점은 미지의 도메인 데이터는 학습 시에 이용할 수 없다는 점이다. 따라서 도메인 일반화 알고리즘은 학습 도메인에서 관측할 수 있는 정보만을 사용하여, 미지의 도메인에도 통용되는 어떠한 구조를 학습해야만 한다.

이때 각 알고리즘은 명시적 또는 암묵적으로 '무엇이 도메인을 초월하여 불변(Invariant)인가'에 대해 가정을 두고 있다. 특징 분포가 일치하면 된다고 생각하는 기법이 있는가 하면, 도메인 간에 동일한 분류기 (Classifier)가 최적이 되는 표현을 찾는 기법도 있다. 혹은 평균 성능이 아니라 최악의 도메인 성능을 중시함으로써 미지의 도메인에 대한 강건성 (Robustness)을 높이려는 기법도 있다.

DomainBed 논문에서는 ERM을 포함한 9가지 대표적인 알고리즘이 비교되고 있다. 구체적으로는 ERM, Group DRO[1], Inter-domain Mixup[2], MLDG[3], DANN[4], C-DANN[5], CORAL[6], MMD[7], IRM[8]이다. 본 장에서는 각 기법을 상세히 유도하기보다는, 각 기법이 어떤 불변성을 가정하고 있는지에 주목하여 정리한다.

2.1 ERM: 모든 도메인의 평균 리스크를 낮춤

먼저 가장 단순한 기준으로 ERM을 생각하자. 여러 학습 도메인이 있을 때, 각 도메인을 $D_1, D_2, \dots, D_k$라고 쓰자. 여기서 $\mathcal{D}{train} = \cup{i=1}^k D_i$이다.

다중 도메인 상의 ERM은 전형적으로 모든 학습 도메인을 합친 평균 리스크를 최소화한다.

여기서 $\mathcal{L}{ERM} = \frac{1}{N} \sum{i=1}^N \ell(f(x_i), y_i)$이다.

ERM은 도메인을 특별하게 취급하지 않는다. 각 데이터 포인트를 한꺼번에 사용하여 전체의 평균 손실 (Loss)을 낮춘다. 따라서 ERM 자체는 '도메인 간에 무엇이 변하고 무엇이 변하지 않는가'를 명시적으로 모델링하지 않는다.

언뜻 보기에는 이것이 도메인 일반화로서는 약한 가정처럼 보인다. 실제로 도메인 일반화 문맥에서 ERM은 종종 '단순한 베이스라인 (Baseline)'으로 취급되어 왔다. 학습 도메인에 포함된 스퓨리어스 상관관계 (Spurious Correlation)를 그대로 이용해 버리면 미지의 도메인에서 무너질 가능성이 있기 때문이다.

하지만 여기서 주의해야 할 점이 있다. ERM이 단순하다는 것과 ERM이 약하다는 것은 같지 않다.

충분히 강력한 아키텍처 (Architecture), 적절한 데이터 증강 (Data Augmentation), 신중한 하이퍼파라미터 탐색, 타당한 모델 선택을 조합한 ERM은 매우 강력한 베이스라인이 될 수 있다. DomainBed 논문의 중요한 점은 ERM을 허술한 비교 대상으로 삼은 것이 아니라, 현실적으로 튜닝된 강력한 베이스라인으로 다루었다는 것이다.

이 관점에서 보면 ERM의 가정은, 학습 도메인 전체에서 평균적으로 유효한 예측 규칙은 미지의 도메인에서도 어느 정도 유효할 것이다라는 것이다.

이것은 강한 불변성 (Invariance)을 명시적으로 부과하는 가정은 아니다. 하지만 여러 도메인을 가로질러 평균 리스크 (Average Risk)를 낮추는 과정에서, 도메인 고유의 우연적인 특징보다는 여러 도메인에 공통적으로 유효한 특징이 선택될 가능성이 있다. 특히 데이터 증강 (Data Augmentation)이나 정규화 (Regularization)가 충분히 작동할 경우, ERM은 상상 이상으로 강력한 일반화 성능을 보일 수 있다.

따라서 도메인 일반화 (Domain Generalization) 기법을 평가할 때는, 약한 ERM을 이기는 것만으로는 불충분하다. 비교 대상은 현대적인 구현상의 기교를 갖춘 강력한 ERM이어야 한다.

2.2 대표적인 도메인 일반화 기법

ERM이 전체의 평균 리스크를 낮추는 것에 반해, 많은 도메인 일반화 기법은 도메인 구조를 더욱 명시적으로 이용한다. DomainBed에서 비교된 대표적인 기법들은 대략 다음과 같이 정리할 수 있다.

계통	대표 사례	기본적인 목표
Robust optimization	Group DRO	손실이 큰 도메인을 중시한다
...

먼저, Group DRO는 평균 리스크가 아니라 도메인별 리스크 중 최악의 것을 중시한다. 전형적으로 다음과 같은 min-max 문제로 파악된다.

ERM이 평균적으로 좋은 모델을 선택하는 것에 반해, Group DRO는 특정 도메인에서 크게 실패하지 않는 모델을 선택하려고 한다. 이 이면에는 학습 도메인 중에서 나쁜 성능을 보이는 도메인을 개선하면, 미지의 도메인에 대해서도 강건 (Robust)해질 가능성이 있다라는 가정이 있다.

다음으로, DANN, C-DANN, CORAL, MMD 등의 기법은 특징 분포 (Feature Distribution)의 일치를 목표로 한다. 예측기를

$f(x) = h(g(x))$

와 같이 분해했을 때,

DANN은 특징 표현 (Feature Representation)으로부터 도메인을 식별할 수 없도록 적대적으로 학습한다. CORAL은 특징의 평균과 공분산 (Covariance)을 맞춘다. MMD는 커널 평균 임베딩 (Kernel Mean Embedding)에 기반한 분포 간 거리를 작게 만든다. C-DANN은 레이블 조건부 (Label-conditioned)로 특징 분포를 맞추는 방향으로 확장한 기법이다.

이러한 기법들에는 도메인 간에 다른 것은 입력의 표층적인 분포이며, 적절한 특징 공간에서는 도메인 간의 분포를 맞출 수 있다라는 가정이 있다.

한편, IRM은 조금 다른 발상을 취한다. IRM이 목표로 하는 것은 단순히 특징 분포를 맞추는 것이 아니라, 도메인 간에 동일한 분류기 (Classifier)가 최적이 되는 표현을 배우는 것이다.

직관적으로는, 어떤 표현 $g$가 다음을 만족해야 한다.

$ ext{subject to } orall d
eq d' : ext{arg min}_h ext{risk}_d(h ext{ o } g) = ext{arg min}h ext{risk}{d'}(h ext{ o } g)$

즉, 모든 학습 도메인에 대하여 동일한 분류기가 최적이라는 것, 즉 도메인을 초월하여 안정적인 예측 규칙이 존재한다는 것이다.

Inter-domain Mixup은 서로 다른 도메인의 샘플끼리 보간 (Interpolation)함으로써, 도메인 간의 중간적인 데이터를 만든다. 입력과 레이블을 각각

$ ilde{x} = ext{mixup}(x_1, x_2), ilde{y} = ext{mixup}(y_1, y_2)$

와 같이 혼합하고, 그 보간된 샘플 위에서도 예측이 매끄럽게 변화하도록 학습한다. 여기서의 가정은 도메인 간의 보간이 의미 있는 데이터 증강으로서 기능하며, 그 보간에 대해 매끄러운 예측기는 미지의 도메인에도 강건해지기 쉽다라는 것이다.

MLDG는 메타 학습 (Meta-learning)의 프레임워크로 도메인 일반화를 다룬다. 학습 도메인의 일부를 가상의 훈련 도메인으로, 나머지를 가상의 테스트 도메인으로 간주하여, 도메인 간에 일반화하는 듯한 업데이트를 학습한다. 이는 미지의 도메인으로의 일반화 그 자체를 학습 도메인 내에서 유사적으로 재현하려고 하는 방법이다. 여기서의 가정은 학습 도메인 간에 관측되는 일반화 구조가 미지의 도메인으로의 일반화를 어느 정도 근사한다는 것이다.

이와 같이 각 기법은 서로 다른 방향에서 도메인 일반화를 목표로 하고 있다. 하지만 공통점은 모두 미지의 도메인에 대해 어떠한 가정을 두고 있다는 점이다.

2.3 불변성은 검증 불가능한 가정이다

지금까지 살펴본 바와 같이, 도메인 일반화 기법의 차이는 **「무엇을 불변(Invariant)하다고 간주할 것인가」**의 차이로 이해할 수 있다.

Group DRO는 학습 도메인 내의 worst-case risk를 낮추는 것이 미지의 도메인에 대한 강건성으로 이어진다고 기대한다. DANN, CORAL, MMD는 도메인 간에 맞춰져야 할 특징 분포가 존재한다고 생각한다. IRM은 모든 도메인에서 동일한 분류기가 최적이 되는 불변 표현이 존재한다고 가정한다. Mixup은 도메인 간의 보간이 유효한 정규화가 된다고 가정한다. MLDG는 학습 도메인 간의 유사적인 train/test 분할이 미지의 도메인으로의 일반화를 모방할 수 있다고 가정한다.

하지만 이러한 가정들이 정말로 미지의 도메인에서 성립할지는 학습 시에는 알 수 없다.

이 지점이 도메인 일반화의 본질적인 어려움이다.

예를 들어, 특징 분포 (feature distribution)를 도메인 간에 일치시키는 것은 언뜻 자연스러워 보인다. 하지만 라벨 예측에 필요한 특징까지 지워버린다면 성능은 오히려 악화될 것이다. 모든 도메인에서 동일한 분류기 (classifier)가 최적이 되는 표현 (representation)을 찾는 것도 매력적이다. 그러나 그러한 표현이 데이터 내에 반드시 존재한다는 보장은 없다. 최악의 도메인에 대한 리스크를 낮추는 것도 강건성 (robustness)으로 이어질 것처럼 보이지만, 학습 도메인에서의 worst-case가 미지의 도메인에서의 어려움을 대표한다는 보장은 없다.

즉, 도메인 일반화 (Domain Generalization)에서의 불변성 (invariance)은 많은 경우 검증 불가능한 가정이다.

이는 ERM (Empirical Risk Minimization) 또한 마찬가지다. ERM은 학습 데이터상의 평균 리스크를 낮추면 테스트 데이터에도 일반화될 것이라는 가정에 의존한다. 일반적인 지도 학습 (supervised learning)에서는 이 가정이 iid (independent and identically distributed) 가정으로 취급된다. 하지만 엄밀히 말하면, 테스트 분포가 학습 분포와 동일함을 완전히 보장할 수는 없다.

도메인 일반화에서는 이 문제가 더욱 날카로워진다. 왜냐하면 테스트 도메인은 학습 시에 관측되지 않았기 때문이다. 따라서 어떤 불변성을 믿을지는 알고리즘의 설계 사상 그 자체인 동시에, 대상 데이터에 관한 가설이기도 하다.

이러한 관점에서 보면 도메인 일반화 기법의 비교는 단순하지 않다. 어떤 기법이 특정 데이터셋에서 유효했다고 하더라도, 그것은 해당 기법이 가정하는 불변성과 그 데이터셋에 존재하는 구조가 맞았다는 의미일 수 있다. 반대로, 다른 데이터셋에서 유효하지 않았다고 해서 그 기법이 일반적으로 무의미하다는 뜻은 아니다. 가정과 데이터 생성 과정 (data generation process)이 맞지 않았을 가능성이 있기 때문이다.

따라서 도메인 일반화 알고리즘을 평가할 때는 단순히 "어떤 목적 함수 (objective function)를 사용했는가"만으로는 불충분하다. 어떠한 데이터셋에서, 어떤 모델을 사용하고, 어떠한 하이퍼파라미터 (hyperparameter) 탐색을 수행하며, 어떤 기준으로 모델을 선정했는지까지 포함하여 비교해야 한다.

이 점이 다음 장에서 다룰 모델 선택 (model selection) 문제로 이어진다.

도메인 일반화에서는 미지의 도메인에서의 성능을 직접 볼 수 없다. 그렇다면 여러 후보 모델 중에서 어떤 것을 "일반화하는 모델"로 선택해야 하는가? 이 질문을 모호하게 둔 채로는 알고리즘의 성능 비교 자체가 불안정해진다.

3. 본 논문의 핵심: 모델 선택도 학습 문제이다

전 장에서는 도메인 일반화 기법들이 각각 서로 다른 불변성을 가정하고 있음을 살펴보았다. 그렇다면 어떤 도메인 일반화 알고리즘을 실제로 사용할 때, 어떤 모델을 최종 모델로 선택해야 하는가?

여기서 말하는 "모델 선택"은 단순히 아키텍처 (architecture)를 고르는 것만을 의미하지 않는다. 학습률 (learning rate), weight decay, 정규화 계수 (regularization coefficient), 데이터 증강 (data augmentation)의 강도, 학습 단계 수, early stopping의 체크포인트 (checkpoint), 알고리즘 고유의 하이퍼파라미터 등, 최종적으로 어떤 학습 완료 모델을 채택할 것인가라는 문제 전체를 가리킨다.

일반적인 지도 학습에서는 이 문제가 비교적 명확하다. 학습 데이터와 동일한 분포에서 얻은 검증 세트 (validation set)를 준비하고, 그 검증 성능 (validation performance)이 가장 좋은 모델을 선택하면 된다. 물론 이것도 완전한 해답은 아니지만, 적어도 "테스트 분포에 가까운 검증 분포를 사용한다"는 사고방식은 자연스럽다.

하지만 도메인 일반화에서는 상황이 다르다. 최종적으로 성능을 내고 싶은 것은 학습 시에 관측하지 않은 미지의 도메인이다. 즉, 테스트 도메인과 동일한 분포를 따르는 검증 세트에 접근할 수 없다. 이 때문에 도메인 일반화에서의 모델 선택은 일반적인 지도 학습만큼 단순하지 않다. 원 논문에서도 도메인 일반화에서는 테스트 데이터와 동일 분포를 따르는 검증 세트에 접근할 수 없기 때문에 모델 선택이 자명하지 않으며, 또한 하이퍼파라미터 선택 방법의 생략이나 불일치가 공정한 평가를 어렵게 만든다고 지적하고 있다.

3.1 왜 일반적인 validation으로는 부족한가

일반적인 ERM에서는 학습 데이터와 검증 데이터가 동일한 분포에서 얻어졌다고 가정한다. 이때 검증 리스크 (validation risk)가 작은 모델을 선택하는 것은 테스트 리스크 (test risk)가 작은 모델을 선택하는 것의 근사로서 의미를 갖는다.

하지만 도메인 일반화에서 작게 만들고 싶은 것은 미지의 도메인 리스크이다. 문제는 학습 시에 이를 계산하여 모델을 선택할 수 없다는 점이다.

이 때문에 도메인 일반화에서의 모델 선택은 반드시 어떠한 대리 지표 (proxy metric)에 의존하게 된다. 예를 들어, 학습 도메인 내의 validation performance를 사용하거나, 학습 도메인의 일부를 의사적인 (pseudo) 테스트 도메인으로 취급하는 방식 등이 있다.

하지만 이러한 대리 지표(proxy metrics)는 중립적이지 않다. 어떤 검증(validation) 방식을 사용할지는 미지의 도메인과 학습 도메인 사이의 관계에 대한 가정을 포함하고 있다.

예를 들어, 학습 도메인 내의 검증 세트(validation set)에서 모델을 선택하는 경우, 암묵적으로 "학습 도메인에서 성능이 좋은 모델은 미지의 도메인에서도 성능이 좋을 것이다"라는 가정을 두고 있다. Leave-one-domain-out과 같이 학습 도메인 중 하나를 의사 테스트 도메인(pseudo test domain)으로 사용하는 경우, 암묵적으로 **"학습 도메인과 테스트 도메인은 유사한 도메인 집합으로부터 샘플링되어 있다"**라는 가정을 두고 있다.

즉, 도메인 일반화(domain generalization)에서의 모델 선택은 단순한 실험상의 세부 사항이 아니다. 그것은 "미지의 도메인을 어떤 것으로 상정할 것인가"라는 문제 그 자체와 연관되어 있다.

이 점을 무시하면 알고리즘 비교가 불안정해진다. 어떤 기법이 다른 기법보다 높은 성능을 보였다 하더라도, 그것이 목적 함수(objective function)의 차이 때문인지, 하이퍼파라미터(hyperparameter) 탐색이나 체크포인트(checkpoint) 선택의 차이 때문인지 알 수 없게 된다. 특히 테스트 도메인의 정보를 암묵적으로 사용하여 하이퍼파라미터를 선택하게 되면, 그 결과는 실제 도메인 일반화 성능을 과대평가하게 된다.

따라서 도메인 일반화 기법을 평가하기 위해서는 알고리즘뿐만 아니라 모델 선택 기준도 명시해야 한다.

3.2 3가지 모델 선택 기준

DomainBed 논문에서는 도메인 일반화에서의 모델 선택 방법으로서 주로 3가지 기준을 정리하고 있다. 이들은 종종 암묵적으로 사용되어 온 방법들이지만, 원 논문에서는 각각이 어떤 가정에 기반하는지를 명확히 구분하고 있다.

첫 번째는 학습 도메인의 검증 세트를 사용하는 방법이다.

각 학습 도메인

식으로 쓰면, 후보 모델 집합을

와 같은 선택이다. 여기서,

보충

여기서의 검증 세트(validation set)는 미지의 테스트 도메인으로부터 얻은 데이터가 아니다. 어디까지나 각 학습 도메인

이 방법의 가정은 비교적 단순하다. 즉, 학습 도메인에서 평균적으로 성능이 좋은 모델은 미지의 도메인에서도 성능이 좋을 것이다라는 가정이다.

이 방법은 구현하기 쉽고 일반적인 지도 학습(supervised learning)과 유사하다. 하지만 미지의 도메인을 직접 모사하는 것은 아니다. 따라서 학습 도메인 내의 검증 성능(validation performance)이 높더라도 미지의 도메인에서 반드시 좋으리라는 보장은 없다.

두 번째는 Leave-one-domain-out cross-validation이다.

이는 학습 도메인 중 하나를 의사적인 테스트 도메인으로 취급하는 방법이다.

개념적으로는 후보

를 평가한다. 여기서,

이 방법의 가정은 학습 도메인과 테스트 도메인이 도메인 상의 어떠한 메타 분포(meta-distribution)로부터 샘플링되었다는 것이다. 즉, 학습 도메인의 하나를 미지의 도메인의 대리자로 취급할 수 있다는 가정이다.

이러한 사고방식은 도메인 일반화의 목적에 가깝게 보인다. 실제로 학습 도메인 내에서 "미지의 도메인으로의 일반화"를 의사적으로 재현하고 있기 때문이다. 하지만 실용적으로는 불안정해지기 쉽다. 도메인 수가 적은 경우, 하나의 도메인을 제외함으로써 학습 데이터가 크게 줄어든다. 또한 제외된 도메인이 실제 테스트 도메인을 대표한다는 보장도 없다.

세 번째는 **테스트 도메인의 검증 세트를 사용하는 방법 (oracle selection)**이다.

이는 테스트 도메인의 검증 세트(validation set) 상에서 가장 성능이 좋은 모델을 선택하는 방법이다. 만약 이것이 가능하다면 미지의 도메인에서 좋은 모델을 선택하기 쉽다. 하지만 당연하게도, 이는 일반적인 도메인 일반화 설정에서는 허용되지 않는다. 왜냐하면 도메인 일반화에서는 학습 시에 테스트 도메인의 데이터를 사용할 수 없기 때문이다.

따라서 oracle selection은 현실적인 모델 선택 방법이 아니다. DomainBed 논문에서도 이는 타당한 벤치마킹 방법으로 간주되지 않는다. 다만, 완전히 무의미한 것은 아니다. 테스트 도메인에 대한 접근을 명시적으로 제한한 상태에서 oracle selection을 사용한다면, 알고리즘의 잠재적인 상한선(upper bound)이나 모델 선택에 따라 성능이 어느 정도 변하는지를 확인하기 위한 참고치로는 활용될 수 있다.

원 논문에서는 oracle selection (오라클 선택)을 사용하는 경우에도 각 알고리즘당 20회의 쿼리(query)로 제한하고 있다. 이는 랜덤 서치 (random search)에서의 각 하이퍼파라미터 (hyperparameter) 후보를 1회의 쿼리로 간주하는 설정이다. 또한, validation set (검증 세트)에 기반한 early stopping (조기 종료)은 허용하지 않으며, 모든 모델을 고정된 스텝 수만큼 학습시킨 뒤 최종 checkpoint (체크포인트)만을 평가 대상으로 삼고 있다. 이는 테스트 도메인 (test domain)에 대한 접근을 무제한으로 허용할 경우, 단순히 테스트 도메인에서 지도 학습 (supervised learning)을 수행하는 것과 다를 바 없게 되기 때문이다.

이상의 세 가지를 정리하면 다음과 같다.

모델 선택 기준	무엇을 보는가	암묵적 가정
Training-domain validation	학습 도메인 내의 validation performance (검증 성능)	학습 도메인에서 성능이 좋은 모델은 미지의 도메인에서도 좋을 것이다
...

중요한 점은 어느 하나가 항상 옳다는 것이 아니다. 각 기준은 저마다 서로 다른 가정을 두고 있다. 따라서 모델 선택 방법을 고르는 것은 미지의 도메인에 관한 가정을 선택하는 것이기도 하다.

3.3 모델 선택을 명시하지 않는 도메인 일반화 기법은 불완전하다

이상을 바탕으로 하면, DomainBed 논문의 주장은 상당히 명확하다.

이는 단순한 실험 보고상의 매너가 아니다. 도메인 일반화 (domain generalization)에 있어서는 모델 선택 기준 그 자체가 미지의 도메인에 대한 가정을 포함하고 있기 때문이다.

예를 들어, 어떤 논문이 새로운 정규화 항 (regularization term)을 제안하여 ERM (경험적 위험 최소화)보다 높은 OOD (분포 외) 성능을 보고했다고 가정하자. 하지만 그 기법의 하이퍼파라미터가 어떻게 선택되었는지 불분명하다면, 그 개선을 어떻게 해석해야 할지 알 수 없다. 학습 도메인의 validation에서 선택했는지, leave-one-domain-out 방식으로 선택했는지, 혹은 테스트 도메인을 보고 선택했는지에 따라 결과의 의미는 크게 달라진다.

DomainBed 논문 해설: 도메인 일반화 연구에서의 평가 설계 문제

요약

핵심 포인트