arXiv논문2026. 06. 17. 12:36

마르코프 노이즈(Markovian Noise) 하의 선형 특징(Linear Features)을 이용한

요약

마르코프 노이즈 환경에서 선형 함수 근사를 이용한 TD(0) 학습의 확률 미분 방정식(SDE) 근사 모델을 제안합니다. 이 모델은 벨만 연산자의 수축 역학과 마르코프 샘플링의 영향을 구분하여 상수 단계 크기 오차 하한을 설명합니다.

핵심 포인트

마르코프 노이즈 하의 선형 TD(0)에 대한 SDE 근사 도입
벨만 연산자의 수축 역학과 마르코프 샘플링 영향력 분리
장기 공분산과 수축 기하학의 상호작용을 통한 오차 하한 규명

선형 함수 근사(Linear function approximation)를 이용한 시간차(Temporal-difference, TD) 학습은 정책 평가(Policy evaluation)를 위한 핵심 방법입니다. 이의 고전적인 연속 시간(Continuous-time) 기술은 상미분 방정식(Ordinary differential equation, ODE)으로, 이는 점근적 평균 역학(Asymptotic mean dynamics)을 포착하지만 오차 하한(Error floor)을 결정하는 확률적 변동(Stochastic fluctuations)은 무시합니다. 우리는 마르코프 노이즈(Markovian noise) 하에서의 선형 TD(0)에 대한 확률 미분 방정식(Stochastic differential equation, SDE) 근사를 도입합니다. 결과적으로 도출된 모델은 투영된 벨만 연산자(Projected Bellman operator)에 의해 지배되는 수축 역학(Contraction dynamics)과 마르코프 샘플링(Markovian sampling)의 영향력을 구분합니다. 그 결과, 이 모델은 마르코프 장기 공분산(Markovian long-run covariance)과 투영된 벨만 연산자의 수축 기하학(Contraction geometry) 사이의 상호작용을 통해 상수 단계 크기(Constant-stepsize) 오차 하한을 설명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

마르코프 노이즈(Markovian Noise) 하의 선형 특징(Linear Features)을 이용한

요약

핵심 포인트

댓글