본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:20

모델 불일치 상황에서의 정적 강건 평균장 게임 (Stationary Robust Mean-Field Games)

요약

모델 불일치 상황에서 다중 에이전트 강화학습(MARL)의 성능 저하를 해결하기 위한 정적 강건 평균장 게임(Stationary Robust Mean-Field Games) 프레임워크를 제안합니다. 분포 모델 불확실성을 모집단 역학에 통합하여 균형의 존재를 증명하고 수렴성이 보장된 알고리즘을 개발했습니다.

핵심 포인트

  • 모델 불일치로 인한 MARL의 성능 저하 문제 해결
  • 분포 강건성을 통합한 무한 시계 정적 평균장 게임 프레임워크 개발
  • 정적 강건 평균장 균형의 존재 증명 및 수렴 알고리즘 제시
  • 유한 모집단 게임과 평균장 해 사이의 근사적 균형 관계 입증

다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)을 실제 환경에 배포하는 것은 훈련 시뮬레이터와 실제 환경 사이의 모델 불일치 (Model Mismatches)로 인해 제한되는 경우가 많으며, 이는 전략적 상호작용을 통해 더욱 증폭되어 배포 시 심각한 성능 저하를 초래할 수 있습니다. 분포 강건성 (Distributional Robustness)은 불확실성 집합 (Uncertainty Set)에서 추출된 최악의 전이 모델 (Worst-case Transition Models)에 대해 정책을 최적화함으로써 원칙적인 대응책을 제공하지만, 표준적인 강건 MARL 프레임워크는 에이전트의 수가 증가함에 따라 점점 더 다루기 힘들어집니다. 본 논문은 분포 모델 불확실성 (Distributional Model Uncertainty)을 모집단 결합 역학 (Population-coupled Dynamics)에 직접 통합하는 무한 시계 (Infinite-horizon), 정적 평균장 게임 (Stationary Mean-Field Game) 프레임워크를 개발합니다. 우리는 수축성 벨만 연산자 (Contractive Bellman Operator)를 갖는 강건한 동적 계획법 원리 (Robust Dynamic Programming Principle)를 확립하고, 고정점 논증 (Fixed-point Argument)을 통해 정적 강건 평균장 균형 (Stationary Robust Mean-Field Equilibrium)의 존재를 증명합니다. 나아가 우리는 수렴성 보장이 있는 최초의 구체적인 알고리즘을 개발합니다. 그 후, 평균장 해를 모호성 집합 (Ambiguity Sets)이 경험적 분포 (Empirical Distribution)에 의존하는 유한 모집단 강건 게임 (Finite-population Robust Game)과 연결하여, 모집단 크기가 증가함에 따라 평균장 균형 정책이 근사적 균형 행동을 유도함을 보여줍니다. 수축성 강건 역학 (Contractive Robust-dynamics) 체제 하에서, 우리는 추가적으로 명시적인 비점근적 오차 범위 (Non-asymptotic Error Bounds)를 얻습니다. 수치 실험을 통해 다양한 불확실성 모델 하에서의 강건성이 미치는 질적 및 양적 영향을 추가로 설명하며, 우리의 이론적 발견을 검증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0