arXiv논문2026. 06. 19. 11:04

보상이 비무작위로 누락된 MDP에서 누락 인지 정책을 위한 오프-폴리시 평가 (Off-Policy Evaluation)

요약

보상이 비무작위로 누락된(MNAR) 환경에서의 오프-폴리시 평가(OPE) 문제를 다루는 연구입니다. 보상 의존적 성향 모델과 브릿지 함수를 도입하여 선택 편향을 해결하고, 복구된 보상을 활용한 새로운 Fitted-Q-Evaluation 추정기를 제안합니다.

핵심 포인트

MNAR 상황에서의 선택 편향 및 무시 가능성 파괴 문제 해결
보상 의존적 성향 모델과 섀도우 변수를 통한 조건부 평균 보상 식별
MNAR 메커니즘 명시적 모델링 없이 보상을 복구하는 브릿지 함수 도입
제안된 추정기의 일치성 및 유한 샘플 오차 경계 확립
MIMIC-III 의료 데이터를 통한 기존 방법 대비 우수한 성능 입증

오프라인 강화학습 (Offline Reinforcement Learning)에서, 기록된 배치 데이터 (logged batch data) 내의 즉각적인 보상 (immediate rewards)은 희소하거나 불규칙한 기록 관리, 또는 특정 보상 값 이상의 검열 (censored)로 인해 관찰되지 않는 경우가 많습니다. 이러한 문제는 의료 및 마케팅을 포함한 실제 환경에서 발생합니다. 본 연구에서는 보상이 비무작위로 누락된 (Missing Not at Random, MNAR) 경우의 유한 호라이즌 마르코프 결정 과정 (finite-horizon Markov decision processes, MDPs)에서의 오프-폴리시 평가 (off-policy evaluation, OPE)를 조사합니다. MNAR 상황은 무시 가능성 (ignorability)을 깨뜨리며, 상태 (states)와 행동 (actions)을 조건화한 후에도 선택 편향 (selection bias)을 유발합니다. 이를 해결하기 위해, 우리는 보상 의존적 성향 모델 (reward-dependent propensity model)을 공식화하고, 전체 데이터의 조건부 평균 보상 (conditional mean reward)을 식별하기 위해 미래 상태를 섀도우 변수 (shadow variables)로 사용합니다. 나아가, MNAR 메커니즘을 명시적으로 모델링하지 않고도 조건부 평균 보상을 복구하는 브릿지 함수 (bridge function)를 도입하며, 이중 샘플링 (double sampling)을 피하기 위해 min-max 절차를 통해 이를 추정합니다. 이러한 식별 (identification) 결과에 기반하여, 우리는 대상 정책 (target policies)이 과거의 누락 지표 (missingness indicators)에 의존할 수 있도록 허용하면서 복구된 보상을 전파하는 Fitted-Q-Evaluation 스타일의 추정기를 제안합니다. 마지막으로, 우리는 제안된 OPE 추정기에 대한 일치성 (consistency) 및 유한 샘플 오차 경계 (finite-sample error bounds)를 확립하며, 시뮬레이션 데이터 및 MIMIC-III 패혈증 (Sepsis) 데이터를 통한 실험을 통해 기존 방법들과 비교하여 우리 방법의 강력한 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상이 비무작위로 누락된 MDP에서 누락 인지 정책을 위한 오프-폴리시 평가 (Off-Policy Evaluation)

요약

핵심 포인트

댓글