arXiv논문2026. 06. 30. 12:12

누적 분포 함수(CDF)를 이용한 슬라이스-바세르슈타인 거리(Sliced-Wasserstein Distance)의 고도의 데이터 병렬화 가능한

요약

본 연구는 정렬 과정 없이 누적 분포 함수(CDF)를 활용하여 계산 효율성을 높인 새로운 Sliced-Wasserstein(SW) 거리 추정기를 제안합니다. 이 방식은 대규모 데이터셋에 대한 병렬 처리가 가능하며, 연합 학습 환경에서도 데이터 교환 없이 적용할 수 있는 확장성을 제공합니다.

핵심 포인트

정렬(Sorting) 과정을 생략하여 계산 복잡도 개선
대규모 데이터셋에 최적화된 고도의 데이터 병렬화 지원
연합 학습(Federated Learning) 환경과의 자연스러운 호환성
가우시안 혼합 모델 등 CDF 활용이 용이한 시나리오에 특화

슬라이스-바세르슈타인 (Sliced Wasserstein, SW) 거리는 무작위 투영 (random projections)을 따른 1차원 최적 운송 (optimal transport)을 활용함으로써, 바세르슈타인 (Wasserstein) 거리에 대한 계산적으로 매력적인 대안으로 부상했습니다. SW 거리의 표준 추정기들은 분위수 함수 (quantile functions)를 통해 계산된 1차원 바세르슈타인 거리의 몬테카를로 평균 (Monte Carlo averages)에 의존하며, 이는 투영된 샘플의 정렬 (sorting)과 전체 데이터셋에 대한 접근을 필요로 합니다. 본 연구에서는 투영된 측도 (projected measures)의 누적 분포 함수 (cumulative distribution functions, CDFs)를 기반으로 하여, 정렬을 피하고 대규모 데이터셋 병렬성을 통해 확장 가능한 새로운 클래스의 SW 거리 추정기를 소개합니다. 이 클래스에는 여러 추정기가 포함되며, 그중 일부는 분산 (variance) 또는 매끄러움 (smoothness)을 제어하는 하이퍼파라미터 (hyperparameters)에 의해 인덱싱됩니다. 우리는 이러한 추정기들이 가우시안 혼합 (mixtures of Gaussians)과 같이 CDF가 분위수 함수보다 다루기 쉬운 시나리오에 특히 적합하며, 더욱이 투영된 데이터의 CDF는 원시 샘플 (raw samples)의 교환 없이도 로컬에서 계산 및 집계될 수 있기 때문에 연합 학습 (federated learning)과도 자연스럽게 호환된다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

누적 분포 함수(CDF)를 이용한 슬라이스-바세르슈타인 거리(Sliced-Wasserstein Distance)의 고도의 데이터 병렬화 가능한

요약

핵심 포인트

댓글