HiComm: 다중 에이전트 강화학습 (MARL)을 위한 계층적 통신
요약
HiComm은 다중 에이전트 강화학습(MARL)에서 관측값의 계층 구조를 활용하는 새로운 통신 모듈을 제안합니다. 수신자 주도형 3단계 디코딩을 통해 구조화된 정보 검색을 수행하며, 기존 방식 대비 통신량을 획기적으로 줄이면서도 높은 성능을 유지합니다.
핵심 포인트
- 계층적 관측 구조를 반영한 플러그인 통신 모듈 HiComm 제안
- 수신자 주도형 3단계 디코딩(그룹-송신자-엔티티) 방식 채택
- 비구조화된 벡터 전송을 구조화된 정보 검색으로 전환
- 기존 베이스라인 대비 통신량을 최대 23배 절감
협력적 다중 에이전트 강화학습 (Cooperative Multi-agent Reinforcement Learning, MARL)은 부분 관측 가능성 (Partial Observability)을 완화하기 위해 종종 통신에 의존하지만, 기존의 대부분의 프로토콜은 메시지를 요약된 관측값의 구조와 분리된 평면적인 밀집 벡터 (Flat Dense Vectors)로 취급합니다. 이러한 설계는 관측값이 그룹 및 엔티티 (Entities)와 같이 자연스럽게 계층 구조를 따르는 많은 협력 환경에서 중요한 귀납적 편향 (Inductive Bias)의 원천을 간과합니다. 우리는 메시지를 송신자의 계층적 관측값에 근거하게 만드는 플러그인 통신 모듈인 \textsc{HiComm}을 제안합니다. \textsc{HiComm}은 수신자 주도형 (Receiver-driven)입니다. 즉, 수신자가 쿼리 (Query)를 발행하면, 계층 구조는 먼저 그룹을 선택하고, 그다음 송신자를 선택하며, 마지막으로 해당 그룹 내의 엔티티를 선택하는 3단계 디코딩 과정을 통해 해결되어, 그에 상응하는 특징 슬라이스 (Feature Slice)를 메시지로 반환합니다. 이는 통신을 비구조화된 벡터 전송에서 송신자의 관측 계층 구조에 대한 구조화된 정보 검색 (Information Retrieval)으로 전환합니다. 우리는 미분 가능한 이산 선택 (Differentiable Discrete Selection)을 위해 Straight-Through Gumbel-Softmax를 사용하고, 표준 MARL 파이프라인에 부착할 수 있는 경량화된 공유 투영 (Shared Projection) 설계를 통해 이 메커니즘을 구현합니다. 서로 다른 관측 구조와 협력 요구 사항을 가진 협력적 MARL 태스크 전반에 걸친 실험 결과, \textsc{HiComm}은 대표적인 학습 기반 통신 베이스라인 (Baselines)과 대등하거나 이를 능가하는 성능을 보이면서도, 에피소드당 수신자별 통신량을 최대 $23 imes$까지 줄이는 것을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기