본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:47

평균 보상 기준 평균장 게임(Mean-Field Games)을 위한 최대 엔트로피 역강화학습

요약

평균 보상 기준의 평균장 게임(MFG) 환경에서 최대 엔트로피 역강화학습(IRL)을 연구한 논문입니다. 전문가의 시연을 통해 보상 함수를 복구하는 수학적 프레임워크를 제안하며, 유한 및 무한 차원 보상 클래스에 대한 수렴성을 증명합니다.

핵심 포인트

  • 평균 보상 기준의 무한 지평 평균장 게임에 대한 IRL 프레임워크 제안
  • 최대 인과 엔트로피 원리를 이용한 정책 복구 방법론 연구
  • 유한 차원 선형 보상에 대한 볼록 쌍대 재정식화 및 수렴성 증명
  • 무한 차원 RKHS 보상을 위한 라그랑주 완화 및 소프트 벨만 방정식 개발
  • 준확률 커널 도입을 통해 할인 인자 수축 부재 문제 해결

우리는 평균 보상 (average-reward) 기준 하에서 이산 시간, 무한 지평 (infinite-horizon) 평균장 게임 (Mean-Field Games, MFGs)에 대한 역강화학습 (Inverse Reinforcement Learning, IRL)을 연구합니다. 전문가의 시연 (expert demonstrations)은 알려지지 않은 보상 하의 정상 상태 평균장 평형 (stationary mean-field equilibrium)으로부터 발생한다고 가정하며, 목표는 최대 인과 엔트로피 원리 (maximum causal entropy principle)를 통해 관찰된 행동을 설명하는 정책을 복구하는 것입니다. 우리는 두 가지 보상 클래스를 통합된 점유 측도 (occupation-measure) 프레임워크 내에서 다룸으로써, 전문가의 평균장 항 (mean-field term) 및 장기 특징 기대값 (long-run feature expectations)과의 일관성을 강제하여 역문제를 공식화합니다. 유한 차원 선형 보상 (finite-dimensional linear rewards)의 경우, 명시적인 로그-분할 목적 함수 (log-partition objective)를 가진 볼록 쌍대 재정식화 (convex dual reformulation)를 제시하며, 일정한 단계 크기 경사 하강법 (constant-step-size gradient descent)을 정당화하는 매끄러움 (smoothness) 및 곡률 (curvature) 특성을 증명합니다. 무한 차원 RKHS 보상의 경우, 내부 최대화 정책이 소프트 벨만 방정식 (soft Bellman equation)에 의해 특징지어지는 라그랑주 완화 (Lagrangian relaxation)를 개발합니다. 주요 장애물은 할인 인자 수축 (discount-factor contraction)의 부재입니다. 우리는 소프트 벨만 연산자 (soft Bellman operator)의 엄격한 수축을 생성하는 하한 기반의 준확률 커널 (minorisation-based sub-stochastic kernel)을 도입하여 이를 해결합니다. 우리는 로그 가능도 점수 (log-likelihood score)의 프레셰 미분 가능성 (Fréchet differentiability)과 립시츠 매끄러움 (Lipschitz smoothness)을 확립하여, 수렴 보장이 있는 경사 상승법 (gradient ascent) 알고리즘을 도출합니다. 악성코드 확산 MFG와 RKHS 기반 소비자 선택 모델이라는 두 가지 수치적 예시는 복구된 정책이 전문가의 행동과 밀접하게 일치함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0