TT-DAC-PS: 최적 거래 실행을 위한 정책 평활화(Policy Smoothing)를 포함한 쌍-타겟 결정론적
요약
주식 매도 프로그램의 최적 실행을 위해 정책 평활화와 쌍-타겟 기술을 결합한 TT-DAC-PS 아키텍처를 제안합니다. 강화학습 기반의 이 모델은 기존 PPO, SAC 및 전통적인 거래 알고리즘보다 우수한 실행 성능을 입증했습니다.
핵심 포인트
- TT-DAC-PS 아키텍처를 통한 과대평가 억제 및 최적 실행 구현
- 하이브리드 OU 노이즈를 활용한 효율적인 탐색 전략 도입
- LOB 데이터 기반 실험에서 기존 RL 및 전통적 알고리즘 대비 우위 확인
- 평균 실행 미달(Implementation Shortfall) 비율의 일관된 감소
본 연구는 과대평가(overestimation)를 억제하기 위해 쌍-지수 이동 평균(twin exponential-moving-average) 크리틱 타겟과 비관적 최소 백업(pessimistic min backup), TD3 스타일의 타겟 정책 평활화 노이즈(target policy smoothing noise), 지연된 액터 업데이트(delayed actor updates), 그리고 보수적 Q 정규화(conservative Q regularisation)를 결합한 결정론적 액터-크리틱 아키텍처인 TT-DAC-PS(Twin-Target Deterministic Actor-Critic with Policy Smoothing)를 도입하여 대규모 주식 매도 프로그램의 최적 실행(optimal execution) 문제를 다룹니다. 탐색(Exploration)에는 하이브리드 스케줄을 사용하는 Ornstein-Uhlenbeck (OU) 노이즈를 사용합니다: 결정론적 에피소드별 감쇠(deterministic episode-wise decay), 최근 보상 분산에 기반한 분산 유도 조정(variance-guided adjustment), 그리고 학습되어 노이즈 스케일에 매핑되는 Soft Actor-Critic (SAC) 스타일의 온도(temperature)가 포함됩니다. 환경은 Almgren-Chriss (AC) 거래 충격(trade impact)을 Limit Order Book (LOB) 가격 및 거래량, 정규화된 상태 특징(normalised state features), 단계별 거래량 참여 상한(per-step volume participation caps), 그리고 효용 기반 보상(utility-based reward)과 통합합니다. 거래 실행 알고리즘은 10개의 미국 주식에 대한 LOB 데이터에 적용되었습니다. 성능은 Proximal Policy Optimisation (PPO), Soft Actor-Critic (SAC), Advantage Actor-Critic (A2C)을 포함한 강화학습(reinforcement-learning) 베이스라인 알고리즘뿐만 아니라, Time-Weighted Average Price (TWAP), Volume-Weighted Average Price (VWAP), AC를 포함한 대안적 거래 실행 알고리즘과 비교하여 평가되었습니다. 제안된 모델은 경쟁력 있는 분산과 함께 평균 실행 미달(implementation shortfall) 비율을 일관되게 감소시키며, 고전적인 베이스라인 및 표준 강화학습 벤치마크 모델보다 우수한 성능을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기