arXiv논문2026. 06. 23. 12:20

모델 불일치 상황에서의 정적 강건 평균장 게임 (Stationary Robust Mean-Field Games)

요약

모델 불일치 상황에서 다중 에이전트 강화학습(MARL)의 성능 저하를 해결하기 위한 정적 강건 평균장 게임(Stationary Robust Mean-Field Games) 프레임워크를 제안합니다. 분포 모델 불확실성을 모집단 역학에 통합하여 균형의 존재를 증명하고 수렴성이 보장된 알고리즘을 개발했습니다.

핵심 포인트

모델 불일치로 인한 MARL의 성능 저하 문제 해결
분포 강건성을 통합한 무한 시계 정적 평균장 게임 프레임워크 개발
정적 강건 평균장 균형의 존재 증명 및 수렴 알고리즘 제시
유한 모집단 게임과 평균장 해 사이의 근사적 균형 관계 입증

다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)을 실제 환경에 배포하는 것은 훈련 시뮬레이터와 실제 환경 사이의 모델 불일치 (Model Mismatches)로 인해 제한되는 경우가 많으며, 이는 전략적 상호작용을 통해 더욱 증폭되어 배포 시 심각한 성능 저하를 초래할 수 있습니다. 분포 강건성 (Distributional Robustness)은 불확실성 집합 (Uncertainty Set)에서 추출된 최악의 전이 모델 (Worst-case Transition Models)에 대해 정책을 최적화함으로써 원칙적인 대응책을 제공하지만, 표준적인 강건 MARL 프레임워크는 에이전트의 수가 증가함에 따라 점점 더 다루기 힘들어집니다. 본 논문은 분포 모델 불확실성 (Distributional Model Uncertainty)을 모집단 결합 역학 (Population-coupled Dynamics)에 직접 통합하는 무한 시계 (Infinite-horizon), 정적 평균장 게임 (Stationary Mean-Field Game) 프레임워크를 개발합니다. 우리는 수축성 벨만 연산자 (Contractive Bellman Operator)를 갖는 강건한 동적 계획법 원리 (Robust Dynamic Programming Principle)를 확립하고, 고정점 논증 (Fixed-point Argument)을 통해 정적 강건 평균장 균형 (Stationary Robust Mean-Field Equilibrium)의 존재를 증명합니다. 나아가 우리는 수렴성 보장이 있는 최초의 구체적인 알고리즘을 개발합니다. 그 후, 평균장 해를 모호성 집합 (Ambiguity Sets)이 경험적 분포 (Empirical Distribution)에 의존하는 유한 모집단 강건 게임 (Finite-population Robust Game)과 연결하여, 모집단 크기가 증가함에 따라 평균장 균형 정책이 근사적 균형 행동을 유도함을 보여줍니다. 수축성 강건 역학 (Contractive Robust-dynamics) 체제 하에서, 우리는 추가적으로 명시적인 비점근적 오차 범위 (Non-asymptotic Error Bounds)를 얻습니다. 수치 실험을 통해 다양한 불확실성 모델 하에서의 강건성이 미치는 질적 및 양적 영향을 추가로 설명하며, 우리의 이론적 발견을 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

모델 불일치 상황에서의 정적 강건 평균장 게임 (Stationary Robust Mean-Field Games)

요약

핵심 포인트

댓글