arXiv논문2026. 06. 09. 11:11

LOTTERY: 크기 비대칭이 존재하는 이표본 검정(Two-Sample Testing)에서의 참조 전용 샘플(Reference-Only

요약

샘플 크기가 불균형한 퓨샷(few-shot) 환경에서 두 샘플의 분포 동일성을 평가하는 새로운 이표본 검정 방법을 제안합니다. 풍부한 참조 데이터를 활용해 참조 의존적 표현을 학습하고, 불확실성 가이드 원칙을 통해 검정력을 극대화합니다.

핵심 포인트

샘플 크기 불균형이 발생하는 퓨샷 설정에 최적화된 검정법 제안
참조 데이터를 활용한 전역 및 지역 구조의 참조 의존적 표현 학습
불확실성 가이드 원칙을 통한 표현군 가중치의 적응적 조절
순열 기반 제1종 오류 제어 및 통합 검정의 일관성 이론적 입증

데이터 적응형 이표본 검정(Data-adaptive two-sample testing)은 데이터로부터 학습된 불일치(discrepancy)(예: 커널 기반 특징 표현(kernel-based feature representations)을 통해 학습됨)를 사용하여 두 샘플이 동일한 분포에서 왔는지 평가합니다. 이러한 방법들은 일반적으로 학습과 검정을 분리하고 제1종 오류(type I error)를 제어하기 위해 데이터 분할(data splitting)에 의존합니다. 그러나 이러한 패러다임은 심각한 샘플 크기 불균형이 발생하는 퓨샷(few-shot) 설정에는 적합하지 않습니다. 즉, 참조 샘플(reference samples)은 풍부하게 사용할 수 있는 반면, 쿼리 샘플(query samples)은 소수만 도착하는 상황입니다. 본 논문에서는 이러한 불균형을 어떻게 건설적으로 활용할 수 있는지 보여줍니다. 풍부한 참조 데이터를 사용하여, 참조 분포의 핵심 구조를 요약하고 이탈(departures)을 탐지하기 위한 유익한 신호를 제공하는 참조 의존적 표현(reference-dependent representations)을 학습합니다. 우리는 전역적(global) 구조와 지역적(local) 구조를 모두 포착하는 일련의 표현군(representation families)을 통합하며, 불확실성 가이드 원칙(uncertainty-guided principle)을 통해 참조 샘플만을 사용하여 이들의 가중치를 적응적으로 조절합니다. 이론적으로, 우리는 순열 기반(permutation-based) 제1종 오류 제어를 확립하고 통합된 검정(aggregated test)의 일관성(consistency)을 입증합니다. 즉, 샘플 크기가 커짐에 따라, 표현 집합(representation set)에 적어도 하나의 일관된 표현이 포함되어 있다면 검정력(test power)은 1로 수렴합니다. 실험적으로, 우리의 통합 방식은 제1종 오류 제어를 유지하면서 다양한 벤치마크에서 강력한 성능을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LOTTERY: 크기 비대칭이 존재하는 이표본 검정(Two-Sample Testing)에서의 참조 전용 샘플(Reference-Only

요약

핵심 포인트

댓글