본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

ARMS: 희소 보상 다중 에이전트 강화학습을 위한 자동 보상 형성 (Automatic Reward Shaping)

요약

MARL의 희소 보상 문제를 해결하기 위해 궤적 순위 지정과 조건부 최적 대응 추론을 활용한 ARMS 프레임워크를 제안합니다. 이 방식은 내쉬 균형을 보존하면서 조밀한 보상 신호를 자동으로 형성하여 학습 효율을 높입니다.

핵심 포인트

  • 희소 보상 문제를 해결하는 자기 지도 보상 형성 프레임워크 ARMS 제안
  • 조건부 최적 대응 추론을 통해 정책 불변성 및 내쉬 균형 보존
  • 에이전트 간 파라미터 공유를 통한 정책 및 보상 학습의 교대 수행
  • 다중 에이전트 경로 탐색 실험을 통해 샘플링 효율성 및 일반화 성능 입증

희소 보상 (Sparse rewards)은 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)에서 주요한 병목 현상이며, 동시 학습이 비정상성 (Non-stationarity)을 유발하여 보상 설계 (Reward design)를 특히 까다롭게 만듭니다. 보상 형성 (Reward shaping)은 학습을 가속화할 수 있지만, 다중 에이전트 환경에서는 단순히 단기적인 최적화를 개선하는 것이 아니라 문제의 전략적 구조를 보존해야 합니다. 본 논문에서는 궤적 순위 지정 (Trajectory ranking)을 통해 희소한 환경 보상으로부터 조밀한 형성 신호 (Dense shaping signals)를 학습하는 MARL용 자기 지도 보상 형성 프레임워크인 ARMS (Automatic Reward-shaping in Multi-agent Systems)를 제안합니다. 단일 에이전트 궤적 순위 지정 보장 (Single-agent trajectory-ranking guarantees)은 MARL로 직접 전이되지 않으므로, 우리는 조건부 최적 대응 추론 (Conditional best-response reasoning)을 통해 정책 불변성 (Policy invariance)을 재정의합니다. 또한 특정 조건이 충족될 경우, 형성된 보상을 사용하는 것이 고정된 상대 정책 하에서 각 에이전트의 최적 대응 집합 (Best-response set)을 보존하며, 결과적으로 내쉬 균형 (Nash equilibria) 집합을 보존함을 보여줍니다. 이러한 관점에 따라, ARMS는 효율성을 위해 에이전트 간 형성 파라미터를 공유하면서 정책 학습 (Policy learning)과 보상 학습 (Reward learning)을 교대로 수행합니다. 부분 관측 가능한 다중 에이전트 경로 탐색 (Partially observable multi-agent pathfinding) 도메인에서의 실험 결과, ARMS는 보상의 희소성과 에이전트 수가 증가함에 따라 샘플링 효율성을 개선하고, 보지 못한 환경으로 일반화되며, 제한된 탐색 (Exploration)과 결합된 정책-보상 역학 (Policy-reward dynamics)이 진동 동작 (Oscillatory behavior)을 유발하는 MARL 특유의 실패 모드를 밝혀냈습니다. 탐색을 늘리면 이러한 효과를 완화하고 학습을 안정화할 수 있습니다. 우리가 아는 바로는, ARMS는 게임 이론적 균형 보존 (Game-theoretic equilibrium-preservation) 결과에 의해 설계 동기가 부여된 최초의 MARL용 자동 보상 형성 프레임워크입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0