arXiv논문2026. 05. 26. 13:38

엔트로피 정규화 강화학습 (Entropy-Regularized Reinforcement Learning)을 위한 Wasserstein 정책

요약

Wasserstein 정책 경사(WPG)를 활용한 엔트로피 정규화 강화학습의 전역 수렴 이론을 다룹니다. Bellman 구조를 활용하여 기존의 볼록성 기반 분석을 대체하고, 분포적 Polyak-Łojasiewicz 조건을 통해 수렴성을 증명합니다.

핵심 포인트

Wasserstein 정책 경사의 최적 운송 기하학 활용
Bellman 구조를 통한 전역 수렴 이론 개발
분포적 Polyak-Łojasiewicz 조건 산출
이산화 편향을 고려한 기하학적 수축 확립

Wasserstein 정책 경사 (Wasserstein policy gradient, WPG)는 행동 분포 (action distributions)의 최적 운송 (optimal-transport) 기하학을 활용하는 강화학습 (reinforcement learning, RL)용 정책 최적화 방법입니다. 엔트로피 정규화 (entropy-regularized) RL 목적 함수를 위해, WPG는 Langevin 유형의 확산 (diffusion)과 함께 소프트 Q-함수 (soft Q-function)의 행동 경사를 따라 정책을 이동시킴으로써 각 상태 조건부 정책 (state-conditional policy)을 진화시킵니다. 연속 제어 (continuous-control) 문제에 대한 매력에도 불구하고, 그 전역 수렴 (global convergence) 특성은 여전히 제대로 이해되지 않은 상태입니다. 표준 Langevin 분석은 RL 목적 함수가 정적인 볼록 함수 (static convex functional)가 아닌 Bellman 재귀 (Bellman recursion)를 통해 정책에 의존하고, Langevin 드리프트 (Langevin drift)가 정책 반복 과정에 따라 정칙성 (regularity)이 제어되어야 하는 소프트 Q-함수에 의해 결정되기 때문에 직접적으로 적용될 수 없습니다.

본 논문에서 우리는 엔트로피 정규화 RL의 Bellman 구조를 활용하여 WPG를 위한 전역 수렴 이론을 개발합니다. 우리는 일반적으로 볼록성 (convexity)이 수행하는 역할을 Bellman 기반 논증으로 대체할 수 있음을 보여줍니다. 즉, 소프트 Bellman 잔차 (soft Bellman residual)는 Gibbs 정책 (Gibbs policy)에 대해 상태별 KL 표현 (statewise KL representation)을 허용하며, Bellman 수축 (Bellman contraction)은 이 잔차를 전역 최적성 격차 (global optimality gap)와 연결하고, Bellman 분해 항등식 (Bellman resolvent identity)은 가치 향상 (value improvement)을 상대적 Fisher 정보 (relative Fisher information)와 연결합니다. 진화하는 Gibbs 가족에 대한 균등 로그-소볼레프 부등식 (uniform log-Sobolev inequality, LSI)과 결합하여, 이러한 요소들은 분포적 Polyak--Łojasiewicz 조건 (distributional Polyak--Łojasiewicz condition)을 산출합니다. 나아가 우리는 이산화 오차 (discretization error)를 제어하는 데 필요한 정칙성과 균등 경계 (uniform bounds)를 확립함으로써, 이산화 편향 (discretization bias)까지 고려한 기하학적 수축 (geometric contraction)을 얻어냅니다. 개념적으로 우리의 분석은 엔트로피 정규화 RL이 일반적인 평탄한 의미에서의 볼록 함수는 아니지만, Bellman 재귀가 WPG의 전역 수렴을 지원하는 유리한 Polyak--Łojasiewicz 유형 (PL-type)의 기하학을 유도한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

엔트로피 정규화 강화학습 (Entropy-Regularized Reinforcement Learning)을 위한 Wasserstein 정책

요약

핵심 포인트

댓글