arXiv논문2026. 05. 15. 16:15

Policy Hessian Decomposition을 통한 할인된 MDP를 위한 2차 Actor-Critic 방법론

요약

본 연구는 강화학습(RL)에서 발생하는 가치 근사 문제를 해결하기 위해 2차 최적화 기반의 Actor-Critic 방법론을 제안합니다. 기존 RL 방법들이 사용하는 1차 업데이트와 달리, 본 접근법은 목적 함수의 곡률 정보를 활용하여 수렴 속도를 높입니다. 특히, Critic이 Actor보다 빠르게 진화하는 '2-타임스케일' 프레임워크를 가정하고 Hessian-vector product (HVP) 계산을 통해 계산 효율적이고 안정적인 2차 업데이트 방법을 공식화했습니다.

핵심 포인트

강화학습(RL)의 가치 근사 문제를 해결하기 위해 2차 최적화 기반 Actor-Critic 방법론을 도입함.
기존 1차 업데이트 방식의 한계를 극복하고, 목적 함수의 곡률 정보를 활용하여 수렴 속도를 개선함.
Actor와 Critic이 다른 시간 스케일에서 진화하는 '2-타임스케일' 프레임워크를 통해 안정적인 근사 조건을 확립함.
Hessian-vector product (HVP) 계산을 활용함으로써, 할인된 보상 설정 하에서도 계산 효율적이고 안정적인 2차 업데이트 방법을 제시함.

우리는 강화학습 (RL)에서의 할인된 보상 (discounted reward) 설정을 다룹니다. 정책 경사 (policy gradient) 방법론에서의 가치 근사 (value approximation) 문제를 완화하기 위해 Actor-Critic 접근 방식이 개발되었으며, 이는 적절한 가정 하에 정지점 (stationary points)으로 수렴하는 것으로 알려져 있습니다. 그러나 이러한 방법들은 1차 업데이트 (first-order updates)에 의존합니다. 이와 대조적으로, 2차 최적화 (second-order optimization)는 수렴을 가속화하는 것으로 증명된 원칙적인 곡률 인식 (curvature-aware) 업데이트를 제공하지만, RL에서의 적용은 Hessian 추정의 계산 복잡성으로 인해 제한적입니다. 본 연구에서는 목적 함수의 전체 곡률 정보를 최대한 활용하는 Actor 업데이트를 위한 2차 근사 (second-order approximations)를 분석합니다. 안정적인 근사를 위해서는 행동 가치 함수 (action-value function)를 정책 파라미터 (policy parameters)에 대해 국소적으로 상수 (locally constant)로 취급해야 하는데, 이는 일반적으로 정책 경사 방법론에서는 성립하지 않습니다. 우리는 Critic이 더 빠른 타임스케일 (timescale)에서 진화하며 Actor 업데이트 동안 준정상적 (quasi-stationary)인 것으로 취급될 수 있는 2-타임스케일 (two-timescale) Actor-Critic 프레임워크 하에서 이러한 근사가 타당해짐을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 Hessian-vector product (HVP) 계산을 활용하는 할인된 보상 설정을 위한 2차 Actor-Critic 방법을 공식화하며, 이는 계산 효율적이고 안정적인 2차 업데이트를 결과로 도출합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Policy Hessian Decomposition을 통한 할인된 MDP를 위한 2차 Actor-Critic 방법론

요약

핵심 포인트

댓글