arXiv논문2026. 05. 04. 19:49

NonZero: 상호작용 기반 탐색을 통한 다중 에이전트 몬테카를로 트리 검색

요약

NonZero는 상호작용 기반 제안 규칙(interaction-guided proposal rule)을 도입하여 다중 에이전트 몬테카를로 트리 검색(MCTS)의 확장성을 크게 향상시킨 방법론입니다. 기존 MCTS가 연립 행동 공간의 지수적 증가 문제에 직면했던 것과 달리, NonZero는 상호작용 점수를 활용하여 계산 가능한 방식으로 다중 에이전트 탐색을 수행합니다. 이 접근 방식은 로컬 편차를 밴디트 문제로 공식화하고 근사 그래프-로컬 최적점에 도달하는 보장된 규칙을 제공함으로써 높은 샘플 효율성과 성능 개선을 입증했습니다.

핵심 포인트

다중 에이전트 MCTS의 주요 병목 현상인 연립 행동 공간의 지수적 증가 문제를 해결합니다.
상호작용 점수를 사용하여 단일 및 다중 에이전트 간의 협력적 이익을 측정하는 독특한 평가 기준을 제시합니다.
로컬 편차를 밴디트 문제로 공식화하고, 선형 이하의 로컬-반감 보장(sublinear local-regret guarantee)을 갖는 제안 규칙을 유도했습니다.
MatGame, SMAC 등 다양한 환경에서 기존 베이스라인 대비 샘플 효율성과 최종 성능 모두를 개선함을 실험적으로 입증했습니다.

몬테 카를로 트리 검색 (Monte Carlo Tree Search, MCTS) 은 협력적 다중 에이전트 도메인에서 확장 시 연립 행동의 지수적으로 큰 집합을 고려해야 하므로 스케일링이 매우 저조하며, 이는 현실적인 검색 예산 하에서 탐색을 심각하게 제한합니다. 우리는 상호작용 기반 제안 규칙 (interaction-guided proposal rule) 을 사용하여 차원수가 낮은 비선형 표현에 대해 대리자 (surrogate) 를 안내하는 선택을 실행함으로써 다중 에이전트 MCTS 를 tractable(tractable: 계산 가능/실현 가능) 하게 만든 NonZero를 제안합니다. 우리의 탐색은 상호작용 점수 (interaction score) 를 사용합니다: 단일 에이전트의 편차는 예측된 이득에 따라 순위가 매겨지며, 두 에이전트의 편차는 협력적 이익을 드러내되 단일 에이전트가 단독으로 개선할 수 없는 경우에도 혼합 차분 측정 (mixed-difference measure) 을 통해 점수가 부여됩니다. 우리는 로컬 편차 (local deviations) 에 대한 밴디트 문제 (bandit problem) 로 후보 제안 (candidate proposal) 을 공식화하고, 연립 행동 공간을 열거하지 않고 근사 그래프 로컬 최적점 (approximate graph-local optima) 에 도달하기 위해 선형 이하의 로컬-반감 보장 (sublinear local-regret guarantee) 을 갖는 NonZero 제안 규칙을 유도합니다. 경험적으로, 매칭된 검색 예산 하에서 NonZero 는 MatGame, SMAC, 및 SMACv2 에서 강력한 모델 기반 (model-based) 및 모델 자유 (model-free) 베이스라인에 비해 샘플 효율성 및 최종 성능을 개선합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NonZero: 상호작용 기반 탐색을 통한 다중 에이전트 몬테카를로 트리 검색

요약

핵심 포인트

댓글