본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:01

시간차 학습 (Temporal Difference Learning)의 분산과 제어 변수 (Control Variates)를 이용한 분산 감소에

요약

본 연구는 테이블 표현 환경에서 TD 학습의 분산 메커니즘을 분석하고, 제어 변수를 통한 분산 감소 원리를 규명합니다. TD의 분산이 MC 추정치에 의해 상한이 제한됨을 입증하며, DAE가 TD보다 더 정교한 분산 경계를 달성함을 보여줍니다.

핵심 포인트

  • TD 학습의 분산은 점근적으로 MC 추정치에 의해 상한이 제한됨
  • 고정된 샘플 수에서 짧은 호라이즌 업데이트가 분산을 감소시킴
  • DAE는 회귀 조정된 제어 변수로서 TD보다 타이트한 분산 경계 달성
  • 독립적 궤적의 효과적인 집계가 분산 감소의 핵심 메커니즘임

본 연구에서는 테이블 표현 (tabular representation)을 사용하는 단계적 설정 (phased setting) 하에서 시간차 학습 (Temporal Difference (TD) learning)의 분산을 분석하며, 분산을 줄이는 능력 이면에 있는 메커니즘 중 하나가 더 많은 수의 독립적인 궤적 (trajectories)에 대해 효과적으로 집계 (aggregating)하는 것임을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 (1) TD의 분산이 점근적으로 몬테카를로 (Monte Carlo (MC)) 추정치에 의해 상한이 제한되며, (2) 고정된 샘플 수에 대해 더 짧은 호라이즌 (horizon) 업데이트가 더 적은 분산을 초래한다는 것을 입증합니다. TD를 넘어, 이득 함수 (advantage function)를 추정하는 방법인 직접 이득 추정 (Direct Advantage Estimation (DAE))이 회귀 조정된 제어 변수 (regression-adjusted control variate)의 일종으로 볼 수 있으며, 대규모 샘플 한계 (large-sample limit)에서 TD에 비해 더 타이트한 분산 경계 (tighter bound on the variance)를 달성함을 보여줍니다. 마지막으로, 정교하게 설계된 환경을 통해 이러한 추정치들의 동작을 수치적으로 예시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0