본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 10:41

공통 노이즈 내 Wasserstein 불확실성 하에서의 평균장 제어를 위한 강건한 $Q$-learning

요약

공통 노이즈와 Wasserstein 불확실성 환경에서 이산 시간 평균장 제어 문제를 해결하기 위한 강건한 Q-learning 알고리즘을 제안합니다. 양자화-투영 방식과 Wasserstein 쌍대 재구성을 결합하여 알고리즘의 수렴성을 입증했습니다.

핵심 포인트

  • Wasserstein 불확실성 하에서의 강건한 Q-learning 알고리즘 제시
  • 양자화 및 투영 방식과 Wasserstein 쌍대 재구성 결합
  • 동기식 및 비동기식 학습 방식의 수렴성 입증
  • 시스템적 리스크 및 전염병 모델을 통한 수치 실험 수행
  • 공통 노이즈 오지정 시 강건성-성능 트레이드오프 분석

본 논문에서는 공통 노이즈(common noise) 법칙 내의 Wasserstein 불확실성(Wasserstein uncertainty) 하에서 이산 시간 평균장 제어(mean-field control) 문제를 위한 강건한 $Q$-learning 알고리즘을 제시합니다. 이 알고리즘은 양자화 및 투영(quantization-and-projection) 방식과 공통 노이즈 공간에서의 Wasserstein 쌍대 재구성(Wasserstein dual reformulation)을 결합합니다. 우리는 동기식(synchronous) 및 비동기식(asynchronous) 학습 방식 모두에 대해 유한 시간 반복 경계(finite-time iteration bounds)와 함께 알고리즘의 수렴성을 입증합니다. 시스템적 리스크(systemic risk) 및 전염병 모델(epidemic models)에 대한 수치 실험을 통해 비동기 구현을 이상적인 벨만 반복(Bellman iteration)과 비교하고, 공통 노이즈 오지정(common-noise misspecification) 하에서의 강건성-성능 트레이드오프(robustness-performance tradeoff)를 설명하며, 비동기 $Q$-learning 알고리즘에서 관찰된 수렴 동작을 보고합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0