arXiv논문2026. 06. 18. 11:42

분포형 결과(Distributional Outcomes)를 위한 Wasserstein 정책 학습

요약

분포형 결과(distribution-valued outcomes)를 가진 오프라인 정책 학습에 관한 연구입니다. Wasserstein barycenter를 활용한 보상 정의와 IPW 및 DR 추정치 기반의 정책 학습 프레임워크에 대한 통계적 보장을 다룹니다.

핵심 포인트

분포형 결과를 가진 오프라인 정책 학습 프레임워크 제안
Wasserstein barycenter를 활용한 효용 범함수 정의
IPW 및 DR 추정치 기반의 통계적 보장 확립
유한 샘플 후회(finite-sample regret)의 주요 의존성 증명
미니맥스 하한(minimax lower bound)을 통한 이론적 날카로움 확립

오프라인 정책 학습(Offline policy learning)은 인과 추론(causal inference) 분야에서 점점 더 많은 관심을 받고 있습니다. 주요 목표는 스칼라 값의 잠재적 결과(potential outcomes)의 평균으로 정의되는 경험적 복지(empirical welfare)를 최대화하는 공변량(covariates)에서 처치(treatment)로의 매핑으로서 정책(개별화된 처치 규칙, individualized treatment rule)을 학습하는 것입니다. 본 논문에서는 분포 값 결과(distribution-valued outcomes)를 가진 오프라인 정책 학습을 연구합니다. 여기서 각 잠재적 결과는 $\mathbb{R}$ 상의 확률 측도(probability measure)이며, 보상(reward)은 유도된 결과 분포들의 Wasserstein barycenter에 적용된 효용 범함수(utility functional)를 통해 정의됩니다. 우리는 역확률 가중치(Inverse Probability Weighting, IPW) 및 이중 강건(Doubly Robust, DR) 추정치(estimators) 모두에 기반한 정책 학습 프레임워크에 대한 통계적 보장(statistical guarantees)을 확립합니다. 조합론적 정책 클래스(combinatorial policy class)와 무한 차원 분위수 도메인(infinite-dimensional quantile domain)의 곱에 대한 까다로운 균등 편차(uniform deviation)를 다룸으로써, 우리는 유한 샘플 후회(finite-sample regret)가 $\widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(Π)/N})$의 주요 의존성을 가짐을 증명합니다. 1차원 Wasserstein 설정 및 명시된 정규성 조건(regularity conditions) 하에서, 주요 후회율(regret rate)은 여전히 정책 클래스의 복잡도(policy-class complexity)에 의해 결정됩니다. 또한, 우리는 $N$ 및 $\mathrm{N\text{-}dim}(Π)$에 대한 주요 의존성의 날카로움(sharpness)을 확립하는 미니맥스 하한(minimax lower bound)을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

분포형 결과(Distributional Outcomes)를 위한 Wasserstein 정책 학습

요약

핵심 포인트

댓글