arXiv논문2026. 05. 19. 13:21

Randomized Advantage Transformation (RAT): 직접 역전파를 통한 Natural Policy Gradients

요약

본 논문은 Fisher matrix 추정 및 역행렬 계산의 높은 비용 문제를 해결하기 위해 직접 역전파를 활용하는 Randomized Advantage Transformation (RAT) 방법을 제안합니다. Woodbury formula와 randomized block Kaczmarz iterations를 사용하여 정규화된 natural policy gradients를 효율적인 vanilla policy gradients 형태로 변환합니다. 실험 결과, RAT는 기존 자연 경사 방법론과 대등하거나 우수한 성능을 보이면서도 구현이 간단하고 다양한 아키텍처에 적용 가능함을 입증했습니다.

핵심 포인트

Fisher matrix의 명시적 구성이나 켤레 기울기 솔버 없이 직접 역전파를 통해 natural policy gradients를 추정함
Woodbury formula를 적용하여 정규화된 natural policy gradients를 변환된 advantage를 가진 vanilla policy gradients로 재구성
randomized block Kaczmarz iterations를 통해 온폴리시 미니 배치에 대한 효율적인 계산 가능
연속 및 시각 제어 벤치마크에서 기존 방법론 대비 우수한 성능과 높은 아키텍처 호환성 증명

Natural policy gradients (자연 정책 경사)는 분포 공간의 기하학적 구조를 고려함으로써 최적화를 개선하지만, Fisher matrix (피셔 행렬)를 추정하고 역행렬을 구하는 비용으로 인해 실제 사용에는 한계가 있습니다. 본 논문에서는 직접 역전파 (direct backpropagation)를 통해 Tikhonov-regularized (티코노프 정규화된) natural policy gradients를 추정하는 방법인 Randomized Advantage Transformation (RAT)을 제시합니다. Woodbury formula (우드버리 공식)를 적용하여, 정규화된 natural policy gradients를 변환된 advantage (이득)를 가진 vanilla policy gradients (일반 정책 경사)로 재구성합니다. RAT는 on-policy mini-batches (온폴리시 미니 배치)에 대한 randomized block Kaczmarz iterations (무작위 블록 카츠마르 반복)를 통해 이 변환을 효율적으로 계산하며, 명시적인 Fisher 구성, conjugate-gradient solvers (켤레 기울기 솔버), 그리고 아키텍처 특정적 근사법을 피할 수 있습니다. 우리는 RAT에 대한 수렴 보장을 제공하며, 다양한 연속 제어 및 시각 제어 벤치마크에서 기존의 natural-gradient (자연 경사) 방법들과 대등하거나 이를 능가함을 실증적으로 입증하는 동시에, 구현이 간단하고 다양한 아키텍처와 호환됨을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Randomized Advantage Transformation (RAT): 직접 역전파를 통한 Natural Policy Gradients

요약

핵심 포인트

댓글