arXiv논문2026. 05. 25. 16:47

ARMS: 희소 보상 다중 에이전트 강화학습을 위한 자동 보상 형성 (Automatic Reward Shaping)

요약

MARL의 희소 보상 문제를 해결하기 위해 궤적 순위 지정과 조건부 최적 대응 추론을 활용한 ARMS 프레임워크를 제안합니다. 이 방식은 내쉬 균형을 보존하면서 조밀한 보상 신호를 자동으로 형성하여 학습 효율을 높입니다.

핵심 포인트

희소 보상 문제를 해결하는 자기 지도 보상 형성 프레임워크 ARMS 제안
조건부 최적 대응 추론을 통해 정책 불변성 및 내쉬 균형 보존
에이전트 간 파라미터 공유를 통한 정책 및 보상 학습의 교대 수행
다중 에이전트 경로 탐색 실험을 통해 샘플링 효율성 및 일반화 성능 입증

희소 보상 (Sparse rewards)은 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)에서 주요한 병목 현상이며, 동시 학습이 비정상성 (Non-stationarity)을 유발하여 보상 설계 (Reward design)를 특히 까다롭게 만듭니다. 보상 형성 (Reward shaping)은 학습을 가속화할 수 있지만, 다중 에이전트 환경에서는 단순히 단기적인 최적화를 개선하는 것이 아니라 문제의 전략적 구조를 보존해야 합니다. 본 논문에서는 궤적 순위 지정 (Trajectory ranking)을 통해 희소한 환경 보상으로부터 조밀한 형성 신호 (Dense shaping signals)를 학습하는 MARL용 자기 지도 보상 형성 프레임워크인 ARMS (Automatic Reward-shaping in Multi-agent Systems)를 제안합니다. 단일 에이전트 궤적 순위 지정 보장 (Single-agent trajectory-ranking guarantees)은 MARL로 직접 전이되지 않으므로, 우리는 조건부 최적 대응 추론 (Conditional best-response reasoning)을 통해 정책 불변성 (Policy invariance)을 재정의합니다. 또한 특정 조건이 충족될 경우, 형성된 보상을 사용하는 것이 고정된 상대 정책 하에서 각 에이전트의 최적 대응 집합 (Best-response set)을 보존하며, 결과적으로 내쉬 균형 (Nash equilibria) 집합을 보존함을 보여줍니다. 이러한 관점에 따라, ARMS는 효율성을 위해 에이전트 간 형성 파라미터를 공유하면서 정책 학습 (Policy learning)과 보상 학습 (Reward learning)을 교대로 수행합니다. 부분 관측 가능한 다중 에이전트 경로 탐색 (Partially observable multi-agent pathfinding) 도메인에서의 실험 결과, ARMS는 보상의 희소성과 에이전트 수가 증가함에 따라 샘플링 효율성을 개선하고, 보지 못한 환경으로 일반화되며, 제한된 탐색 (Exploration)과 결합된 정책-보상 역학 (Policy-reward dynamics)이 진동 동작 (Oscillatory behavior)을 유발하는 MARL 특유의 실패 모드를 밝혀냈습니다. 탐색을 늘리면 이러한 효과를 완화하고 학습을 안정화할 수 있습니다. 우리가 아는 바로는, ARMS는 게임 이론적 균형 보존 (Game-theoretic equilibrium-preservation) 결과에 의해 설계 동기가 부여된 최초의 MARL용 자동 보상 형성 프레임워크입니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARMS: 희소 보상 다중 에이전트 강화학습을 위한 자동 보상 형성 (Automatic Reward Shaping)

요약

핵심 포인트

댓글