arXiv논문2026. 05. 22. 11:29

Wasserstein 정책 최적화 (WPO)의 수렴성에 관한 노트

요약

Wasserstein 정책 최적화(WPO) 알고리즘의 이론적 수렴성을 분석한 연구 노트입니다. 엔트로피 정규화된 MDP 프레임워크 내에서 WPO가 전역 최적해로 선형 수렴함을 로그-소볼레 부등식을 통해 입증합니다.

핵심 포인트

연속적 행동 공간에서의 WPO 수렴 특성 분석
로그-소볼레 부등식을 활용한 평균장 분석 적용
단조적 에너지 소산 및 국소 로그-소볼레 부등식 확립
가치 함수의 전역 최적해로의 선형 수렴 증명

Wasserstein 정책 최적화 (Wasserstein Policy Optimization, WPO)는 연속적인 행동 공간 (continuous action spaces)에서 확률적 정책 (stochastic policies)을 최적화하기 위해 Wasserstein 경사 흐름 (Wasserstein gradient flows)을 활용하는 최근 제안된 강화학습 (reinforcement learning) 알고리즘입니다. 실증적인 성공에도 불구하고, 연속적인 상태 및 행동 공간을 가진 환경에서 WPO의 이론적 수렴 특성은 아직 완전히 확립되지 않았습니다. 본 노트에서 우리는 엔트로피 정규화된 마르코프 결정 과정 (entropy-regularised Markov Decision Processes) 프레임워크 내의 WPO가 선형적으로 수렴한다고 주장합니다. 이는 로그-소볼레 부등식 (log-Sobolev inequalities)을 사용하여 경사 흐름 (gradient flows)의 수렴을 위한 평균장 분석 (mean-field analysis)의 최근 발전을 활용함으로써 이루어집니다. 경사 흐름 방정식에 대해 충분히 규칙적인 해가 존재한다고 가정할 때, 우리는 흐름을 따른 단조적 에너지 소산 (monotonic energy dissipation)을 입증하고 국소 로그-소볼레 부등식 (local log-Sobolev inequality)을 확립합니다. 궁극적으로, 이러한 특성들을 통해 가치 함수 (value function)가 전역 최적해 (global optimum)로 선형적으로 수렴해야 함을 논증할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Wasserstein 정책 최적화 (WPO)의 수렴성에 관한 노트

요약

핵심 포인트

댓글