arXiv논문2026. 06. 23. 11:12

시뮬레이션을 통한 역전파: 샘플 및 학습 효율적인 미분 가능한 연속 제어를 위한 해석적 정책 경사 (Analytic Policy

요약

환경 역학이 미분 가능한 경우 시뮬레이션을 통해 역전파를 수행하는 해석적 정책 경사(APG) 방식을 제안합니다. PPO와 같은 모델 프리 방식보다 정확한 경사 계산이 가능하며, 다양한 연속 제어 작업에서 샘플 및 계산 효율성을 평가했습니다.

핵심 포인트

환경 역학의 미분 가능성을 활용한 엔드투엔드 경사 계산
PPO 대비 높은 샘플 및 계산 효율성 제공 가능성
긴 호라이즌 작업에서의 경사 퇴화 방지를 위한 분할 역전파 제안
MC 및 크리틱 기반 부트스트랩 모드를 통한 성능 최적화

Proximal Policy Optimization (PPO)와 같은 모델 프리 강화학습 (Model-free reinforcement learning) 알고리즘은 환경을 블랙박스 (black box)로 취급하며, 샘플링된 보상으로부터 정책 경사 (policy gradients)를 추정합니다. 이 과정은 수백만 번의 상호작용을 요구하며 분산이 높은 어드밴티지 추정치 (advantage estimates)에 의존합니다. 환경 역학 (environment dynamics)이 미분 가능하다면, 리턴 (return)은 정책 파라미터 (policy parameters)의 엔드투엔드 미분 가능한 함수가 되어, 시뮬레이션을 통한 역전파 (backpropagation through simulation)를 통해 정확한 경사 계산을 가능하게 합니다. 우리는 이 접근 방식을 해석적 정책 경사 (Analytic Policy Gradients, APG)라고 명명하고, 동적 복잡도가 증가하는 네 가지 연속 제어 (continuous control) 작업에 대해 PPO와 비교 평가합니다: 1차원 점질량 목표 도달 작업, 장애물 회피를 포함한 2D 점질량 내비게이션 작업, 2D 강체 T-블록 밀기 작업, 그리고 7-DOF Franka FR3 말단 장치 도달 작업입니다. 두 알고리즘은 동일한 모델 아키텍처 (model architectures), 관측 정규화 (observation normalization), 그리고 옵티마이저 (optimizer) 설정을 공유합니다. 샘플 효율성 (sample efficiency)과 계산 효율성 (compute efficiency)을 분리하기 위해, 우리는 환경 스텝 (environment steps) 및 경사 스텝 (gradient steps)에 따른 성능을 기록하는 다축 평가 프로토콜을 설계했습니다. 우리는 긴 호라이즌 (long-horizon) 작업에서 경사 퇴화 (gradient degradation)를 완화하는 MC 및 크리틱 기반 부트스트랩 (critic-based bootstrap) 모드를 포함한 분할 역전파 (segmented backpropagation) 방식을 보고하며, 세그먼트 길이 (segment length) 및 부트스트랩 전략 (bootstrap strategy)에 대한 절제 연구 (ablations)를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시뮬레이션을 통한 역전파: 샘플 및 학습 효율적인 미분 가능한 연속 제어를 위한 해석적 정책 경사 (Analytic Policy

요약

핵심 포인트

댓글