행동 추론(Action Inference) 및 중요도 샘플링(Importance Sampling)을 통한 다중 에이전트 학습용 MADDPG
요약
MADDPG 알고리즘의 성능을 개선하기 위해 행동 추론 메커니즘과 기하 분포 기반 중요도 샘플링을 제안합니다. 이를 통해 다중 에이전트 환경의 비정상성을 완화하고 학습 안정성과 탐색 효율성을 높였습니다.
핵심 포인트
- 행동 추론을 통한 에이전트 간 협력 및 정책 안정성 향상
- 기하 분포 중요도 샘플링으로 최근 유익한 경험 우선 학습
- PettingZoo 벤치마크를 통한 실험적 성능 검증 완료
- 다중 에이전트 환경의 비정상성 문제 완화
우리는 다중 에이전트 심층 강화학습 (Multi-Agent Deep Reinforcement Learning)을 조사하고, MADDPG (Multi-Agent Deep Deterministic Policy Gradient) 알고리즘에 대한 두 가지 개선 사항을 제안합니다. 첫째, 각 에이전트가 다른 에이전트들의 의도된 행동을 예측할 수 있게 하여 자신의 정책 (Policy) 정확도와 안정성을 향상시키는 새로운 행동 추론 (Action Inference) 메커니즘을 도입합니다. 둘째, 리플레이 버퍼 (Replay Buffer) 내에서 기하 분포 (Geometric Distribution)를 사용하는 중요도 샘플링 (Importance Sampling) 전략을 적용하여, 더 최근의 유익한 경험에 우선순위를 부여함으로써 다중 에이전트 환경에 내재된 비정상성 (Non-stationarity)을 완화하는 데 도움을 줍니다. 우리는 일반적인 다중 에이전트 강화학습 벤치마크를 위한 유연한 Python 인터페이스인 PettingZoo 라이브러리에서 제공하는 이산 행동 (Discrete-action) 포식자-피식자 (Predator-Prey) 태스크를 통해 두 가지 수정 사항을 모두 평가합니다. 우리의 결과는 행동 추론 (Action Inference)이 학습 안정성과 에이전트 간 협력 (Inter-agent cooperation)을 개선하는 데 효과적이며, 기하 분포를 사용한 중요도 샘플링 (Importance Sampling)이 표준 MADDPG에 비해 탐색 효율성 (Exploration efficiency)을 크게 향상시킬 수 있음을 나타냅니다. 코드는 https://github.com/shaashwathsivakumar/MARL_Proj 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기