CCKS: 합의 기반 통신 및 지식 공유
요약
본 논문은 협력적 다중 에이전트 강화학습(MARL)의 지식 공유 문제를 해결하기 위해 합의 기반 통신 및 지식 공유(CCKS) 프레임워크를 제안합니다. CCKS는 에이전트들이 합의된 제약 조건에 따라 추천을 채택하여, 기존 방식의 과도한 자문 의존성을 줄이고 안정적인 성능 향상을 이끌어냅니다.
핵심 포인트
- CCKS는 MARL에서 행동 자문의 문제점(과도한 의존성)을 해결합니다.
- 합의 모델 구축에 대조 학습(contrastive learning)을 활용하여 국소 관찰 기반 합의를 만듭니다.
- 탐색과 경험적 학습 간의 균형을 맞추어 전반적인 성능 향상을 달성합니다.
- Google Research Football 및 StarCraft II 환경에서 높은 효율성을 입증했습니다.
협력적인 다중 에이전트 강화학습(MARL)을 위한 분산 훈련 및 분산 실행(DTDE)에서, 행동 자문 기반 지식 공유는 에이전트 간 해석 가능하고 확장 가능한 협력을 촉진합니다. 하지만 현재의 행동 자문 접근 방식들은 교사의 지도에 너무 의존하는 경향이 있어, 교사-학생 적합성을 평가하지 못하게 만듭니다. 이는 과도한 자문을 유발하고, 최적이 아닌 안정성(suboptimal stability)을 초래하며, 성능 저하를 일으킵니다. 이러한 문제들을 극복하기 위해, 본 논문은 합의 기반 통신 및 지식 공유(CCKS) 프레임워크를 제시합니다. 이 프레임워크는 에이전트들이 합의에서 도출된 제약 조건에 기반하여 추천을 채택하고, 교사의 지침을 더욱 스마트하게 따르도록 합니다. 이 메커니즘은 에이전트가 탐색(exploration)과 경험 많은 교사로부터의 학습 간의 균형을 맞추게 하여 전반적인 성능을 향상시킵니다. 핵심은 합의 모델 구축에 있으며, 이를 위해 우리는 에이전트의 훈련 단계에서 국소 관찰(local observations)을 기반으로 합의 모델을 구축하기 위해 대조 학습(contrastive learning)을 사용하도록 제안합니다. 행동 선택 시, 에이전트는 합의와 공유된 지식을 기반으로 행동에 점수를 매기고 선택합니다. 플러그 앤 플레이 솔루션으로 설계된 CCKS는 기존 DTDE 알고리즘과 원활하게 통합됩니다. Google Research Football 환경과 복잡한 StarCraft II 다중 에이전트 챌린지에서 수행된 실험들은, CCKS와의 통합이 현재의 DTDE 기준선(baselines)과 비교하여 협력 효율성, 학습 속도 및 전반적인 성능을 크게 향상시킨다는 것을 보여줍니다. 코드는 https://github.com/yuanxpy/CCKS 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기