arXiv논문2026. 06. 19. 11:01

시간차 학습 (Temporal Difference Learning)의 분산과 제어 변수 (Control Variates)를 이용한 분산 감소에

요약

본 연구는 테이블 표현 환경에서 TD 학습의 분산 메커니즘을 분석하고, 제어 변수를 통한 분산 감소 원리를 규명합니다. TD의 분산이 MC 추정치에 의해 상한이 제한됨을 입증하며, DAE가 TD보다 더 정교한 분산 경계를 달성함을 보여줍니다.

핵심 포인트

TD 학습의 분산은 점근적으로 MC 추정치에 의해 상한이 제한됨
고정된 샘플 수에서 짧은 호라이즌 업데이트가 분산을 감소시킴
DAE는 회귀 조정된 제어 변수로서 TD보다 타이트한 분산 경계 달성
독립적 궤적의 효과적인 집계가 분산 감소의 핵심 메커니즘임

본 연구에서는 테이블 표현 (tabular representation)을 사용하는 단계적 설정 (phased setting) 하에서 시간차 학습 (Temporal Difference (TD) learning)의 분산을 분석하며, 분산을 줄이는 능력 이면에 있는 메커니즘 중 하나가 더 많은 수의 독립적인 궤적 (trajectories)에 대해 효과적으로 집계 (aggregating)하는 것임을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 (1) TD의 분산이 점근적으로 몬테카를로 (Monte Carlo (MC)) 추정치에 의해 상한이 제한되며, (2) 고정된 샘플 수에 대해 더 짧은 호라이즌 (horizon) 업데이트가 더 적은 분산을 초래한다는 것을 입증합니다. TD를 넘어, 이득 함수 (advantage function)를 추정하는 방법인 직접 이득 추정 (Direct Advantage Estimation (DAE))이 회귀 조정된 제어 변수 (regression-adjusted control variate)의 일종으로 볼 수 있으며, 대규모 샘플 한계 (large-sample limit)에서 TD에 비해 더 타이트한 분산 경계 (tighter bound on the variance)를 달성함을 보여줍니다. 마지막으로, 정교하게 설계된 환경을 통해 이러한 추정치들의 동작을 수치적으로 예시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시간차 학습 (Temporal Difference Learning)의 분산과 제어 변수 (Control Variates)를 이용한 분산 감소에

요약

핵심 포인트

댓글