arXiv논문2026. 05. 21. 10:53

Bellman 재귀를 넘어: 비지수적 할인 (Non-Exponential Discounting)을 위한 Pontryagin 가이드 프레임워크

요약

기존 강화학습의 Bellman 재귀 방식은 비지수적 할인(Non-exponential discounting) 상황에서 구조적 한계를 보입니다. 본 논문은 이를 해결하기 위해 Pontryagin 최대 원리와 Monte Carlo 롤아웃을 결합한 PG-DPO 프레임워크를 제안하여, 비지수적 할인 환경에서도 높은 정확도와 안정성을 확보했습니다.

핵심 포인트

지수적 할인은 곱셈성과 시간 균질성에 의존하며, 이를 위반할 경우 표준 동적 계획법이 붕괴됨
재귀적 Bellman 구조 대신 Pontryagin 최대 원리를 활용한 변분 프레임워크 제안
Adjoint-MC 투영을 통해 점별 Hamiltonian 최대화를 강제하는 PG-DPO 방식 도입
쌍곡선 및 생존 할인 벤치마크에서 기존 방정식 기반 솔버 및 크리틱 기반 방식보다 우수한 성능 입증

대부분의 가치 기반 (Value-based) 및 액터-크리틱 (Actor-critic) 강화학습 (Reinforcement Learning) 방법론은 Bellman 스타일의 재귀 (Recursion)에 의존하지만, 이러한 재귀는 인간의 선호도 및 생존 과정에서 흔히 나타나는 비지수적 할인 (Non-exponential discounting) 상황에서는 붕괴됩니다. 우리는 이러한 붕괴가 구조적인 문제임을 보여줍니다. 즉, 지수적 할인 (Exponential discounting)은 곱셈성 (Multiplicativity)과 시간 균질성 (Time homogeneity)이라는 취약한 교차점에 위치하며, 이 두 성질 중 어느 하나라도 위반하면 표준적인 동적 계획법 (Dynamic programming)이 깨지게 됩니다. 이를 극복하기 위해, 우리는 재귀를 포기하고 Pontryagin 최대 원리 (Pontryagin Maximum Principle)를 Monte Carlo 롤아웃 (Monte Carlo rollouts)과 결합하여 점별 Hamiltonian 최대화 (Pointwise Hamiltonian maximization)를 강제하는 Adjoint-MC 투영 (Adjoint-MC projection)을 사용하는 변분 프레임워크 (Variational framework)인 Pontryagin-Guided Direct Policy Optimization (PG-DPO)를 제안합니다. 다차원 쌍곡선 (Hyperbolic) 및 생존 할인 (Survival-discount) 벤치마크 전반에 걸쳐, PG-DPO는 방정식 기반 솔버 (Equation-driven solvers) 및 크리틱 기반 베이스라인 (Critic-based baselines)이 발산하는 지점에서 정확도와 안정성을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

Bellman 재귀를 넘어: 비지수적 할인 (Non-Exponential Discounting)을 위한 Pontryagin 가이드 프레임워크

요약

핵심 포인트

댓글