본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 14:30

최소한의 가정 하에 Single-Loop Actor-Critic에 대한 $\epsilon^{-2}$ 샘플 복잡도 달성

요약

본 논문은 강화학습(RL)의 오프-폴리시 Actor-Critic 방법론에 대한 수렴 속도를 분석합니다. 특히, 단일 루프 및 근사 정책 반복과 같은 최소한의 가정 하에서 $ ilde{\mathcal{O}}(\epsilon^{-2})$ 샘플 복잡도 보증을 최초로 증명했습니다. 이는 기존 연구들이 요구했던 중첩 루프나 강력한 탐색 가정을 회피하며, 결합된 리아푸노프 드리프트 프레임워크를 사용하여 Actor와 Critic의 수렴 속도를 통합적으로 분석함으로써 달성되었습니다.

핵심 포인트

  • 최소한의 가정 하에 오프-폴리시 Actor-Critic 방법론의 $\tilde{\mathcal{O}}(\epsilon^{-2})$ 샘플 복잡도 보증을 최초로 증명함.
  • 기존 연구와 달리 중첩 루프 업데이트나 알고리즘 의존적인 강력한 탐색 가정을 요구하지 않음.
  • 결합된 리아푸노프 드리프트(coupled Lyapunov drift) 프레임워크를 사용하여 Actor와 Critic의 수렴 속도를 통합적으로 분석함.
  • Actor에 대한 기하학적 수렴 속도와 Critic에 대한 $\tilde{\mathcal{O}}(1/T)$ 수렴 속도를 각각 확립하고 이를 결합함.

본 논문에서 우리는 강화학습 (Reinforcement Learning) 분야의 오프-폴리시 (off-policy) Actor-Critic 방법론에 대한 마지막 반복 (last-iterate) 수렴 속도를 확립합니다. 특히, 단일 루프 (single-loop), 단일 타임스케일 (single-timescale) 구현 및 근사 정책 반복 (approximate policy iteration)과 자연 정책 경사 (natural policy gradient) 방법을 포함한 광범위한 정책 업데이트 클래스 하에서, 우리는 최소한의 가정, 즉 기약 마르코프 체인 (irreducible Markov chain)을 유도하는 정책의 존재성 하에 $\epsilon$-최적 정책 ($\epsilon$-optimal policy)을 찾기 위한 최초의 $\tilde{\mathcal{O}}(\epsilon^{-2})$ 샘플 복잡도 (sample complexity) 보증을 증명합니다. 이는 $\tilde{\mathcal{O}}(\epsilon^{-2})$ 샘플 복잡도가 중첩 루프 (nested-loop) 업데이트를 통해서만 달성되거나, 균일 혼합 (uniform mixing) 및 균일 탐색 (uniform exploration)과 같이 정책에 대한 알고리즘 의존적인 강력한 가정 하에서만 달성되었던 기존 문헌들과 극명한 대조를 이룹니다. 기술적으로, 단일 루프 구현으로 인해 발생하는 결합된 업데이트 방정식 (coupled update equations)의 난제와 오프-폴리시 학습으로 인해 유도될 수 있는 무제한 반복 (unbounded iterates) 문제를 해결하기 위해, 우리의 분석은 결합된 리아푸노프 드리프트 (coupled Lyapunov drift) 프레임워크를 기반으로 합니다. 구체적으로, 우리는 Actor에 대한 기하학적 수렴 속도 (geometric convergence rate)와 Critic에 대한 $\tilde{\mathcal{O}}(1/T)$ 수렴 속도를 확립하고, 교차 지배 (cross-domination) 성질을 통해 두 리아푸노프 드리프트 부등식을 결합합니다. 우리는 이 분석적 프레임워크가 독립적인 관심 대상이며, 무제한적인 다른 결합된 반복 알고리즘 (coupled iterative algorithms)에도 적용될 수 있을 것이라 믿습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0