arXiv논문2026. 05. 29. 11:28

Mean-Field Diffuser: 수천 명의 에이전트로 오프라인 MARL 확장하기

요약

MF-Diffuser는 확산 기반 계획을 활용하여 수천 명의 에이전트를 포함하는 다중 에이전트 오프라인 강화학습(MARL) 문제를 해결하는 프레임워크입니다. 와세르슈타인 공간과 혼돈의 전파 원리를 이용해 차원의 저주를 극복하고 대규모 에이전트 시스템에서도 높은 성능을 증명했습니다.

핵심 포인트

와세르슈타인 공간을 통한 다중 에이전트 확장성 확보
가치 가중 혼돈 엔트로피 목적 함수 도입
계층적 coarse-to-fine 전략으로 에이전트 수 점진적 확장
평균장 근사 오차 및 하위 최적성 경계 이론적 증명
1,000명 이상의 대규모 에이전트 환경에서 탁월한 성능

확산 기반 계획 (Diffusion-based planning)은 단일 에이전트 오프라인 강화학습 (Offline Reinforcement Learning)에서 강력한 결과를 달성했지만, 결합 궤적 공간 (Joint trajectory space)에서의 차원의 저주로 인해 다중 에이전트 시스템 (Many-agent systems)으로 확장하는 것은 여전히 다루기 어려운 과제로 남아 있습니다. 우리는 궤적 계획을 궤적 분포의 와세르슈타인 공간 (Wasserstein space)으로 격상시키는 프레임워크인 MF-Diffuser를 소개합니다. 이 공간에서는 혼돈의 전파 (Propagation of chaos)를 통해 소수의 대표적인 에이전트 부분 집합이 전체 인구 역학 (Population dynamics)을 포착할 수 있습니다. 우리의 접근 방식은 생성적 충실도 (Generative fidelity)와 보상 극대화 (Return maximization)를 조화시키는 가치 가중 혼돈 엔트로피 (Value-weighted chaotic entropy) 목적 함수와, 노이즈 제거 (Denoising) 과정 동안 에이전트 인구수를 점진적으로 늘리는 계층적 coarse-to-fine 전략을 특징으로 합니다. 우리는 네 가지 해석 가능한 항을 통해 엔드투엔드 하위 최적성 경계 (End-to-end suboptimality bounds)를 설정하며, 이를 통해 평균장 근사 오차 (Mean-field approximation error)는 $O(H^2/\sqrt{N})$로 확장되는 반면, 오프라인 분포 변화 (Offline distribution shift)는 인구 규모 $N$에 따라 증가하지 않음을 증명합니다. 또한 생성된 정책이 명시적인 수렴 보장과 함께 근사적 평균장 내시 균형 (Approximate mean-field Nash equilibrium)임을 증명합니다. 스테이지 게임 (Stage games), 순차적 역학 (Sequential dynamics), 적대적 팀 경쟁 (Adversarial team competition)을 아우르는 세 가지 평균장 RL 벤치마크에서의 실험 결과, MF-Diffuser는 대부분의 설정에서 최고의 보상을 달성하였으며, 특히 하위 최적 오프라인 데이터 (Suboptimal offline data)와 극한 규모($N \geq 10^3$)에서 가장 큰 이득을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mean-Field Diffuser: 수천 명의 에이전트로 오프라인 MARL 확장하기

요약

핵심 포인트

댓글