Missingness-MDPs: 결측 데이터 이론과 POMDP의 가교
요약
본 논문은 결측 데이터 이론과 부분 관측 마르코프 결정 과정(POMDPs)을 통합한 새로운 하위 클래스인 missingness-MDPs (miss-MDPs)를 제안합니다. miss-MDP는 특정 시점에서 상태 특징이 누락될 확률을 지정하는 POMDP입니다. 연구진은 행동-관측 궤적 데이터셋에서 미지의 결측 함수를 학습하여, 근사적으로 정확한(PAC) 알고리즘을 통해 최적의 정책을 계산하는 방법을 제시합니다.
핵심 포인트
- missingness-MDPs (miss-MDPs)는 결측 데이터를 고려한 POMDP의 새로운 하위 클래스이다.
- 결측 데이터 유형(MCAR, MAR, MNAR)에 대한 구조적 특성을 활용하여 미지의 결측 함수를 학습하는 PAC 알고리즘을 개발했다.
- 제안된 방법은 근사적으로 정확하게 miss-MDP를 생성하며, 이를 통해 도출된 정책이 실제 miss-MDP에서 $\epsilon$-최적임을 증명했다.
- 실험 결과는 기존의 모델 프리 POMDP 방법론보다 우수한 성능을 보였다.
우리는 결측 데이터 (missing data) 이론을 통합한 부분 관측 마르코프 결정 과정 (Partially Observable Markov Decision Processes, POMDPs)의 새로운 하위 클래스인 missingness-MDPs (miss-MDPs)를 소개합니다. miss-MDP는 관측 함수 (observation function)가 결측 함수 (missingness function)인 POMDP로, 특정 타임스텝에서 개별 상태 특징 (state features)이 누락될 (즉, 관측되지 않을) 확률을 지정합니다. 기존 문헌에서는 세 가지 전형적인 결측 유형을 구분합니다: (1) 완전 무작위 결측 (Missing Completely At Random, MCAR), (2) 무작위 결측 (Missing At Random, MAR), 그리고 (3) 비무작위 결측 (Missing Not At Random, MNAR). 우리의 계획 문제 (planning problem)는 행동-관측 궤적 (action-observation trajectories) 데이터셋이 주어졌을 때, 미지의 결측 함수를 가진 miss-MDP에 대해 최적에 가까운 정책 (near-optimal policies)을 계산하는 것입니다. 정책에 대해 이러한 최적성을 보장하기 위해서는 데이터로부터 결측 함수를 학습해야 하는데, 이는 일반적인 POMDP에서는 불가능합니다. 이 과제를 극복하기 위해, 우리는 다양한 결측 유형의 구조적 특성을 활용하여 결측 함수를 학습하기 위한 아마도 근사적으로 정확한 (Probably Approximately Correct, PAC) 알고리즘을 도출합니다. 이러한 알고리즘은 근사적이지만 완전히 명시된 miss-MDP를 생성하며, 우리는 이를 기성 계획 방법 (off-the-shelf planning methods)을 사용하여 해결합니다. 우리는 높은 확률로, 결과적으로 도출된 정책이 실제 miss-MDP에서 epsilon-최적 (epsilon-optimal)임을 증명합니다. 실험 결과는 이론을 확인하며, 두 가지 모델 프리 (model-free) POMDP 방법론에 비해 우리 접근 방식의 우수한 성능을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기