arXiv논문2026. 06. 19. 10:41

공통 노이즈 내 Wasserstein 불확실성 하에서의 평균장 제어를 위한 강건한 $Q$-learning

요약

공통 노이즈와 Wasserstein 불확실성 환경에서 이산 시간 평균장 제어 문제를 해결하기 위한 강건한 Q-learning 알고리즘을 제안합니다. 양자화-투영 방식과 Wasserstein 쌍대 재구성을 결합하여 알고리즘의 수렴성을 입증했습니다.

핵심 포인트

Wasserstein 불확실성 하에서의 강건한 Q-learning 알고리즘 제시
양자화 및 투영 방식과 Wasserstein 쌍대 재구성 결합
동기식 및 비동기식 학습 방식의 수렴성 입증
시스템적 리스크 및 전염병 모델을 통한 수치 실험 수행
공통 노이즈 오지정 시 강건성-성능 트레이드오프 분석

본 논문에서는 공통 노이즈(common noise) 법칙 내의 Wasserstein 불확실성(Wasserstein uncertainty) 하에서 이산 시간 평균장 제어(mean-field control) 문제를 위한 강건한 $Q$-learning 알고리즘을 제시합니다. 이 알고리즘은 양자화 및 투영(quantization-and-projection) 방식과 공통 노이즈 공간에서의 Wasserstein 쌍대 재구성(Wasserstein dual reformulation)을 결합합니다. 우리는 동기식(synchronous) 및 비동기식(asynchronous) 학습 방식 모두에 대해 유한 시간 반복 경계(finite-time iteration bounds)와 함께 알고리즘의 수렴성을 입증합니다. 시스템적 리스크(systemic risk) 및 전염병 모델(epidemic models)에 대한 수치 실험을 통해 비동기 구현을 이상적인 벨만 반복(Bellman iteration)과 비교하고, 공통 노이즈 오지정(common-noise misspecification) 하에서의 강건성-성능 트레이드오프(robustness-performance tradeoff)를 설명하며, 비동기 $Q$-learning 알고리즘에서 관찰된 수렴 동작을 보고합니다.

AI 자동 생성 콘텐츠

원문 바로가기

공통 노이즈 내 Wasserstein 불확실성 하에서의 평균장 제어를 위한 강건한 $Q$-learning

요약

핵심 포인트

댓글