마르코프 노이즈(Markovian Noise) 하의 선형 특징(Linear Features)을 이용한
요약
마르코프 노이즈 환경에서 선형 함수 근사를 이용한 TD(0) 학습의 확률 미분 방정식(SDE) 근사 모델을 제안합니다. 이 모델은 벨만 연산자의 수축 역학과 마르코프 샘플링의 영향을 구분하여 상수 단계 크기 오차 하한을 설명합니다.
핵심 포인트
- 마르코프 노이즈 하의 선형 TD(0)에 대한 SDE 근사 도입
- 벨만 연산자의 수축 역학과 마르코프 샘플링 영향력 분리
- 장기 공분산과 수축 기하학의 상호작용을 통한 오차 하한 규명
선형 함수 근사(Linear function approximation)를 이용한 시간차(Temporal-difference, TD) 학습은 정책 평가(Policy evaluation)를 위한 핵심 방법입니다. 이의 고전적인 연속 시간(Continuous-time) 기술은 상미분 방정식(Ordinary differential equation, ODE)으로, 이는 점근적 평균 역학(Asymptotic mean dynamics)을 포착하지만 오차 하한(Error floor)을 결정하는 확률적 변동(Stochastic fluctuations)은 무시합니다. 우리는 마르코프 노이즈(Markovian noise) 하에서의 선형 TD(0)에 대한 확률 미분 방정식(Stochastic differential equation, SDE) 근사를 도입합니다. 결과적으로 도출된 모델은 투영된 벨만 연산자(Projected Bellman operator)에 의해 지배되는 수축 역학(Contraction dynamics)과 마르코프 샘플링(Markovian sampling)의 영향력을 구분합니다. 그 결과, 이 모델은 마르코프 장기 공분산(Markovian long-run covariance)과 투영된 벨만 연산자의 수축 기하학(Contraction geometry) 사이의 상호작용을 통해 상수 단계 크기(Constant-stepsize) 오차 하한을 설명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기