시간 비일관적 제어 문제에서의 평형 학습을 위한 결정적 정책 경사 (Deterministic Policy Gradient)
요약
시간 비일관적 제어 문제를 해결하기 위한 새로운 연속 시간 모델 프리 강화학습 알고리즘을 제안합니다. HJB 시스템을 활용해 문제를 2단계로 재구성하며, 금융 포트폴리오 관리 등 실제 응용 분야에서 효과를 입증했습니다.
핵심 포인트
- 시간 비일관적 제어 문제를 위한 결정적 평형 정책 학습 알고리즘 개발
- HJB 시스템을 활용한 2단계 문제 재구성 및 액터-크리틱 방식 적용
- 내부 고정점 반복과 마팅게일 특성을 이용한 보조 함수 학습
- 평균-분산 포트폴리오 관리 등 금융 응용 분야에서의 유효성 검증
본 논문에서는 일반적인 시간 비일관적 (time-inconsistent) 제어 문제에서 결정적 평형 정책 (deterministic equilibrium policies)을 학습하기 위한 연속 시간 모델 프리 (model-free) 강화학습 알고리즘을 개발합니다. 확장된 Hamilton-Jacobi-Bellman (HJB) 시스템을 활용하여, 원래의 시간 비일관적 문제를 동등한 2단계 문제로 재구성합니다. 첫 번째 단계에서는 주어진 보조 함수 (auxiliary functions)에 대해, 결정적 정책 경사 (deterministic policy gradient) 접근 방식을 채택하여 보조 시간 일관적 (time-consistent) 제어 문제에서의 최적 정책을 학습합니다. 두 번째 단계에서는 업데이트된 정책이 주어졌을 때, 내부 고정점 반복 (inner fixed point iterations)과 일부 마팅게일 특성 (martingale characterizations)을 활용하여 보조 함수를 학습합니다. 이론적 기여로서, 우리는 몇 가지 완만한 모델 가정 (model assumptions)을 제공하고 내부 고정점 반복의 수렴성을 입증합니다. 두 단계에 걸쳐 이러한 액터-크리틱 (actor-critic) 스타일의 반복을 수행함으로써, 우리의 알고리즘은 다양한 원인의 시간 비일관성 하에서 평형을 통합된 방식으로 학습하는 것을 목표로 합니다. 제안된 알고리즘의 탁월한 효과는 시간 비일관성을 가진 두 가지 고전적인 금융 응용 분야인 평균-분산 포트폴리오 관리 (mean-variance portfolio management) 및 비지수적 할인 (non-exponential discounting) 하에서의 최적 추적 포트폴리오 (optimal tracking portfolio)를 통해 입증됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기