심층 강화학습 (Deep Reinforcement Learning)을 통한 연속 시간 최적 정지 (Continuous-time Optimal
요약
연속 시간 최적 정지 문제를 해결하기 위해 심층 강화학습 기반의 새로운 알고리즘인 CARLOS를 제안합니다. 이 알고리즘은 시공간 결정 경계를 학습하여 기존 이산화 방식의 오차를 극복하고 높은 계산 효율성을 달성합니다.
핵심 포인트
- CARLOS 알고리즘은 임의의 미세한 시간 해상도에서 실행 규칙 학습 가능
- ADNN을 활용하여 결합된 시공간 결정 경계 학습
- 적응형 샘플링 전략을 통해 정지 경계 근처의 훈련 집중도 향상
- 기존 버뮤단 솔버 대비 아메리칸 상한선에 근접하는 높은 정확도 제공
최적 정지 문제 (optimal stopping problems)를 위한 시뮬레이션 기반 솔버 (solvers)는 정지 결정을 이산화 (discretize)해야만 합니다. 고전적인 동적 계획법 (dynamic programming) 하에서는, 몇 안 되는 정지 기회만을 가진 거친 실행 그리드 (exercise grid)는 최적 기대 보상 (optimal expected reward)을 실질적으로 과소평가할 수 있는 반면, 매우 미세한 그리드에서는 역방향 재귀 (backward recursion)를 통해 근사 오차 (approximation errors)가 누적됩니다. 이러한 한계를 제거하기 위해, 우리는 임의의 미세한 시간 해상도 (time resolution)에서 실행 규칙 (exercise rule)을 학습할 수 있는 새로운 강화학습 (reinforcement-learning) 기반 알고리즘을 개발합니다. 우리의 CARLOS (Continuous-time Adaptive Reinforcement Learning for Optimal Stopping) 알고리즘은 결합된 시공간 결정 경계 (joint space-time decision boundary)를 학습하기 위해 집합적 심층 신경망 (aggregate deep neural network, ADNN)을 활용합니다. 거친 시간 그리드에서 시작하여, 우리는 정지 기회의 빈도를 점진적으로 증가시키는 동시에, 병렬적으로 ADNN을 훈련시켜 타이밍-가치 추정치 (timing-value estimates)를 정교화합니다. 또한, 정지 경계 근처에 훈련 노력을 점진적으로 집중시키는 적응형 샘플링 전략 (adaptive sampling strategy)을 설계합니다. 벤치마크 결과에 따르면, CARLOS는 기존의 버뮤단 솔버 (Bermudan solvers)보다 더 높은 가격을 제공하여 아메리칸 상한선 (American upper bound)에 근접하며, 비 강화학습 (non-RL) 비교 대상들에 비해 높은 계산 효율성 (computational efficiency)을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기