arXiv논문2026. 06. 16. 12:47

평균 보상 기준 평균장 게임(Mean-Field Games)을 위한 최대 엔트로피 역강화학습

요약

평균 보상 기준의 평균장 게임(MFG) 환경에서 최대 엔트로피 역강화학습(IRL)을 연구한 논문입니다. 전문가의 시연을 통해 보상 함수를 복구하는 수학적 프레임워크를 제안하며, 유한 및 무한 차원 보상 클래스에 대한 수렴성을 증명합니다.

핵심 포인트

평균 보상 기준의 무한 지평 평균장 게임에 대한 IRL 프레임워크 제안
최대 인과 엔트로피 원리를 이용한 정책 복구 방법론 연구
유한 차원 선형 보상에 대한 볼록 쌍대 재정식화 및 수렴성 증명
무한 차원 RKHS 보상을 위한 라그랑주 완화 및 소프트 벨만 방정식 개발
준확률 커널 도입을 통해 할인 인자 수축 부재 문제 해결

우리는 평균 보상 (average-reward) 기준 하에서 이산 시간, 무한 지평 (infinite-horizon) 평균장 게임 (Mean-Field Games, MFGs)에 대한 역강화학습 (Inverse Reinforcement Learning, IRL)을 연구합니다. 전문가의 시연 (expert demonstrations)은 알려지지 않은 보상 하의 정상 상태 평균장 평형 (stationary mean-field equilibrium)으로부터 발생한다고 가정하며, 목표는 최대 인과 엔트로피 원리 (maximum causal entropy principle)를 통해 관찰된 행동을 설명하는 정책을 복구하는 것입니다. 우리는 두 가지 보상 클래스를 통합된 점유 측도 (occupation-measure) 프레임워크 내에서 다룸으로써, 전문가의 평균장 항 (mean-field term) 및 장기 특징 기대값 (long-run feature expectations)과의 일관성을 강제하여 역문제를 공식화합니다. 유한 차원 선형 보상 (finite-dimensional linear rewards)의 경우, 명시적인 로그-분할 목적 함수 (log-partition objective)를 가진 볼록 쌍대 재정식화 (convex dual reformulation)를 제시하며, 일정한 단계 크기 경사 하강법 (constant-step-size gradient descent)을 정당화하는 매끄러움 (smoothness) 및 곡률 (curvature) 특성을 증명합니다. 무한 차원 RKHS 보상의 경우, 내부 최대화 정책이 소프트 벨만 방정식 (soft Bellman equation)에 의해 특징지어지는 라그랑주 완화 (Lagrangian relaxation)를 개발합니다. 주요 장애물은 할인 인자 수축 (discount-factor contraction)의 부재입니다. 우리는 소프트 벨만 연산자 (soft Bellman operator)의 엄격한 수축을 생성하는 하한 기반의 준확률 커널 (minorisation-based sub-stochastic kernel)을 도입하여 이를 해결합니다. 우리는 로그 가능도 점수 (log-likelihood score)의 프레셰 미분 가능성 (Fréchet differentiability)과 립시츠 매끄러움 (Lipschitz smoothness)을 확립하여, 수렴 보장이 있는 경사 상승법 (gradient ascent) 알고리즘을 도출합니다. 악성코드 확산 MFG와 RKHS 기반 소비자 선택 모델이라는 두 가지 수치적 예시는 복구된 정책이 전문가의 행동과 밀접하게 일치함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

평균 보상 기준 평균장 게임(Mean-Field Games)을 위한 최대 엔트로피 역강화학습

요약

핵심 포인트

댓글