본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 17:41

제어된 마르코프 체인(CMC)의 모델 기반 부트스트랩

요약

본 논문은 비정상적이거나 이력 의존적인 제어 정책을 가진 유한 제어된 마르코프 체인(CMC)의 전이 커널에 대한 모델 기반 부트스트랩 방법을 제시합니다. 이는 데이터 생성 행동 정책이 알려지지 않은 오프라인 강화학습 환경에서 발생하는 문제를 해결하는 데 중점을 둡니다. 연구진은 단일 장기 사슬 레짐과 에피소드형 오프라인 RL 레짐 모두에서 제안된 전이 추정기의 분포적 일관성을 성공적으로 입증했습니다.

핵심 포인트

  • 제어된 마르코프 체인(CMC)의 전이 커널에 대한 모델 기반 부트스트랩 방법을 제안함.
  • 데이터 생성 행동 정책을 알 수 없는 오프라인 강화학습 (Offline RL) 환경에 초점을 맞춤.
  • 단일 장기 사슬 및 에피소드형 오프라인 RL 레짐 모두에서 전이 추정기의 분포적 일관성을 확립함.
  • 새로운 부트스트랩 대수의 법칙(LLN)과 마팅게일 중심 극한 정리(CLT)의 활용을 핵심 기술로 사용함.

우리는 비정상적이거나 이력 의존적인 제어 정책을 가질 수 있는 유한 제어된 마르코프 체인(Controlled Markov Chains, CMCs)의 전이 커널에 대한 모델 기반 부트스트랩을 제안하고 분석합니다. 이는 데이터 생성 행동 정책이 알려지지 않은 오프라인 강화학습 (RL)에서 자연스럽게 발생하는 설정입니다. 우리는 단일 장기 사슬 레짐과 에피소드형 오프라인 RL 레짐 모두에서 부트스트랩 전이 추정기의 분포적 일관성을 확립합니다. 핵심 기술 도구는 방문 횟수에 대한 새로운 부트스트랩 대수의 법칙 (LLN)과 부트스트랩 전이 증가에 대한 마팅게일 중심 극한 정리 (CLT)의 새로운 활용입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0