arXiv논문2026. 05. 08. 13:04

Q-MMR: 재귀적 재가중 및 모멘트 매칭을 통한 오프라인 평가

요약

Q-MMR은 유한 시간 지평 MDP(Markov Decision Process)에서 오프라인 정책 평가를 위한 새로운 이론적 프레임워크입니다. 이 방법은 각 데이터 포인트에 대한 스칼라 가중치를 학습하여, 재가중된 보상이 목표 정책 하에서의 기대 수익을 근사하도록 합니다. 특히, 일반적인 함수 근사에 대해 $Q^ ext{target}$의 실현 가능성만으로 차원과 무관한(dimension-free) 유한 표본 크기 보장을 제시했다는 점이 중요합니다.

핵심 포인트

Q-MMR은 오프라인 RL 환경에서 정책 평가를 위한 새로운 이론적 프레임워크입니다.
데이터 포인트별 스칼라 가중치를 학습하여 목표 정책 하의 기대 수익을 근사합니다.
가중치 학습은 값 함수 판별자 클래스(value-function discriminator class)에 대한 모멘트 매칭 목적 함수를 통해 상향식으로 이루어집니다.
일반적인 함수 근사에 대해 $Q^ ext{target}$의 실현 가능성만으로 차원과 무관한 유한 표본 크기 보장을 확립했습니다.

본 논문에서는 유한 지평선 MDP(finite-horizon MDP)에서의 오프라인 평가를 위한 새로운 이론적 프레임워크인 Q-MMR을 제시합니다. Q-MMR은 각 데이터 포인트에 대해 스칼라 가중치 세트를 학습하며, 이 재가중된 보상(reweighted rewards)이 목표 정책 하의 기대 리턴(expected return)을 근사하도록 합니다. 이러한 가중치는 값 함수 판별자 클래스(value-function discriminator class)를 이용한 모멘트 매칭 목적 함수(moment matching objective)에 의해 상향식(top-down manner)으로 귀납적으로 학습됩니다. 특히, 놀랍게도 일반적인 함수 근사(general function approximation)의 경우 $Q^ ext{π}$의 실현 가능성(realizability)만으로 차원 독립적 경계(dimension-free bound)—즉, 오차가 함수 클래스의 통계적 복잡도에 의존하지 않음—를 갖는 데이터 종속적인 유한 표본 보장(data-dependent finite-sample guarantee)을 확립할 수 있습니다. 또한 중요 샘플링(importance sampling) 및 선형 FQE(linear FQE)와 같은 기존 여러 방법들과의 연결고리도 확립합니다. 추가적인 이론적 분석은 오프라인 RL에 근본적으로 중요한 개념인 커버리지(coverage)의 본질에 새로운 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Q-MMR: 재귀적 재가중 및 모멘트 매칭을 통한 오프라인 평가

요약

핵심 포인트

댓글