Mixture-of-Experts를 이용한 도메인 일반화(Domain Generalization)를 위한 부분 집합 공유
요약
도메인 일반화(DG) 시 모든 도메인에 전역적 불변성을 강제하면 표현 공간이 제한되는 문제를 해결하기 위해, MoE 아키텍처를 활용한 '부분 집합 공유 불변성' 개념을 제안합니다. 각 전문가가 특정 도메인 부분 집합을 정렬하고 라우팅을 통해 조합함으로써 도메인 이질성에 대한 강건성을 높였습니다.
핵심 포인트
- 전역적 불변성 강제가 표현 공간을 제한하는 한계 지적
- MoE를 활용한 도메인 부분 집합 기반의 불변성 모델링 제안
- 라우팅 조건부 불변성을 통한 효과적인 예측 요인 보존
- DomainBed 벤치마크에서 개선된 도메인 외 일반화 성능 입증
도메인 일반화 (Domain Generalization, DG)는 훈련 과정에서 타겟 데이터에 접근하지 않고, 하나 이상의 소스 도메인 (source domains)으로부터 미지의 타겟 도메인 (target domain)으로 일반화될 수 있는 모델을 학습하는 것을 목표로 합니다. 일반적인 접근 방식은 예측 구조가 전역적으로 공유된다고 가정하고, 모든 소스 도메인에 걸쳐 표현 (representations)의 불변성 (invariance)을 강제합니다. 그러나 우리는 더 많은 도메인에 대해 불변성을 강제할수록 가능한 표현 공간 (representation space)이 점진적으로 제한되어, 보편적으로 공유되지 않는 전이 가능한 예측 요인 (transferable predictive factors)들을 폐기하게 된다는 것을 입증합니다. 이러한 한계를 해결하기 위해, 우리는 예측 구조가 도메인 부분 집합 (domain subsets) 내에서만 안정적이라고 가정하는 부분 집합 공유 불변성 (subset-shared invariance)을 제안합니다. 우리는 이 원칙을 Mixture-of-Experts (MoE) 아키텍처로 구현하며, 여기서 각 전문가 (expert)는 자신이 담당하는 특정 도메인들을 정렬 (align)하고, 라우팅 메커니즘 (routing mechanism)은 예측을 위해 부분 집합 불변 구성 요소 (subset-invariant components)들을 조합합니다. 이는 표현과 함께 공동으로 학습되는 라우팅 조건부 불변성 (routing-conditioned invariance)을 생성합니다. 효과적인 분해를 촉진하기 위해, 우리는 선택적 정렬 (selective alignment), 확신 있고 균형 잡힌 라우팅 (confident and balanced routing), 그리고 다양한 전문가 전문화 (diverse expert specialization)를 장려하는 훈련 목적 함수 (training objectives)를 개발합니다. DomainBed 벤치마크에서의 실험은 개선된 도메인 외 일반화 (out-of-domain generalization) 성능과 증가하는 도메인 이질성 (domain heterogeneity) 하에서의 더 높은 강건성 (robustness)을 입증합니다. 우리의 결과는 DG가 단일한 전역 불변성 (global invariance)을 강제하는 것을 넘어, 도메인 부분 집합 전반에 걸친 부분적으로 공유된 구조를 통해 불변성을 모델링해야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기