arXiv논문2026. 06. 01. 11:03

강화학습 (Reinforcement Learning) 응용을 위한 이중 시간 척도 마르코프 확률 근사 (Two-Timescale

요약

본 연구는 강화학습에서 사용되는 이중 시간 척도 확률 근사(Two-timescale SA) 알고리즘의 수렴성을 마르코프 노이즈 환경에서 입증합니다. 기존 i.i.d. 가정에서 벗어나 더 현실적인 마르코프 노이즈 하에서도 안정성과 수렴성을 보장하는 새로운 기술적 접근법을 제시합니다.

핵심 포인트

마르코프 노이즈 환경에서의 이중 시간 척도 SA 수렴성 확립
투영 연산자나 컴팩트 공간 제약 없이 안정성 확보
느린 시간 척도 파라미터의 실행 최대값을 활용한 제어 방식 도입
선형 함수 근사 기반 오프-폴리시 TDC의 거의 확실한 수렴성 증명

본 연구는 두 세트의 파라미터를 각각 빠른 시간 척도 (fast timescale)와 느린 시간 척도 (slow timescale)에서 업데이트하는 반복 알고리즘 클래스인 이중 시간 척도 확률 근사 (two-timescale stochastic approximations, SA)의 수렴성을 연구합니다. 강화학습 (Reinforcement Learning, RL) 분야에서 이중 시간 척도 SA의 주목할 만한 예로는 그래디언트 보정이 포함된 시간차 학습 (temporal difference learning with gradient correction, TDC)과 액터-크리틱 (actor-critic) 방법이 있습니다. 기존에는 이중 시간 척도 SA의 안정성 (stability, 즉 유계성 (boundedness))과 수렴성이 오직 독립 항등 분포 (i.i.d.) 노이즈 하에서만 확립되었습니다. 반면, 본 연구는 RL에서 더 현실적인 설정인 마르코프 노이즈 (Markovian noise) 하에서의 이중 시간 척도 SA의 안정성과 수렴성을 확립합니다. 특히, 우리는 어떠한 투영 연산자 (projection operator)도 사용할 필요가 없으며 노이즈가 컴팩트 공간 (compact space)에 존재할 필요도 없습니다. 우리의 핵심적인 기술적 참신함은 대부분의 이전 연구들이 현재의 느린 시간 척도 파라미터를 사용하는 것과 달리, 느린 시간 척도 파라미터의 실행 최대값 (running max)을 사용하여 빠른 시간 척도 파라미터를 제어한다는 점에 있습니다. 주요 응용 사례로서, 우리는 선형 함수 근사 (linear function approximation)를 이용한 오프-폴리시 학습 (off-policy learning) 환경에서 적격성 흔적 (eligibility traces)을 포함한 TDC의 최초의 거의 확실한 수렴성 (almost sure convergence)을 확립합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (Reinforcement Learning) 응용을 위한 이중 시간 척도 마르코프 확률 근사 (Two-Timescale

요약

핵심 포인트

댓글