통신과 정책의 분리: 대역폭 제약 하에서의 강건한 다중 에이전트 강화학습 (MARL)
요약
대역폭 제약이 있는 환경에서 다중 에이전트 강화학습(MARL)의 성능 저하 문제를 해결하기 위한 새로운 접근 방식을 제안합니다. 통신 경로를 정책의 잠재 표현으로부터 분리하는 SLIM 아키텍처와 대역폭 예산을 통합 관리하는 정규화 지표 $\beta$를 도입하여, 통신 용량 제한이 정책 성능에 미치는 영향을 최소화했습니다.
핵심 포인트
- 기존 MARL 통신 구조의 병목 현상인 '공유된 잠재 표현' 문제를 식별하고 해결책 제시
- 희소성, 통신 횟수, 메시지 차원을 통합한 에이전트당 정규화된 대역폭 예산 $\beta$ 도입
- 통신 경로와 정책 잠재 표현을 분리하여 대역폭 제약이 정책 용량에 미치는 영향을 격리하는 SLIM 아키텍처 제안
- 제한된 대역폭 환경에서도 최첨단(SOTA) 성능과 높은 확장성 및 강건성 입증
통신은 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)에서 협업을 가능하게 하지만, 드론 군집을 이용한 수색 및 구조와 같은 많은 실제 응용 분야는 심각한 대역폭 (Bandwidth) 제약 하에서 작동합니다. 많은 통신 아키텍처 (Communication Architectures)는 여전히 공유된 잠재 표현 (Shared Latent Representation)이 정책 실행 (Policy Execution)과 에이전트 간 통신 (Inter-agent Communication) 모두에 사용되는 결합된 병목 현상을 노출합니다. 결과적으로, 메시지 크기를 줄이는 것은 정책의 잠재 공간 (Latent Space)을 직접적으로 제한하며, 이는 종종 상당한 성능 저하로 이어집니다. 우리는 두 가지 기여를 통해 이 문제를 해결합니다. 첫째, 희소성 (Sparsity), 반올림 (Rounds), 메시지 차원 (Message Dimension)을 하나의 비교 가능한 제약 조건으로 통합하는 에이전트당 정규화된 대역폭 예산인 $β$를 도입합니다. 둘째, 통신 경로를 정책의 잠재 표현으로부터 분리하는 최소한의 아키텍처인 SLIM을 제공하여, 단계별 통신 (In-step Communication)의 이점을 누리면서도 대역폭의 효과를 정책 용량 (Policy Capacity)의 효과로부터 격리할 수 있도록 합니다. 우리는 통신이 필수적인 여러 부분 관측 가능 (Partially-observable) MARL 벤치마크에서 우리의 방법을 평가합니다. 우리의 접근 방식은 최첨단 (State-of-the-art) 성능을 달성하며, 제한된 통신 환경에서도 확장성 (Scalability)과 강건성 (Robustness)을 보여주며, 대역폭이 감소함에 따라 성능 저하가 미미하게 나타납니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기