다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning)에서의 일반화된 의도 모델링 (Generalized
요약
다중 에이전트 강화학습(MARL)에서 작업과 환경에 따라 변하는 상대방의 의도를 효과적으로 모델링하기 위한 새로운 프레임워크를 제안합니다. 성능 중심의 다중 의도 표현 혼합과 미래 수익과의 상호 정보량을 최대화하는 방식을 통해 기존 모델링의 한계를 극복합니다.
핵심 포인트
- 작업 적응형 상대 모델링 프레임워크 도입
- 다중 의도 표현 혼합을 통한 환경 변화 대응
- 미래 수익과의 상호 정보량 최대화로 핵심 정보 포착
- 기존 SOTA 베이스라인 대비 우수한 성능 입증
상대방의 의도(intent)를 모델링하는 것은 비협력적(non-cooperative), 경쟁적(competitive), 그리고 일반 합 게임(general-sum) 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)에서 효과적인 의사결정을 내리는 데 매우 중요합니다. 기존의 상대 모델링 (opponent modeling) 방법들은 상대방의 다음 행동(next action)이나 미래의 환경 상태(future environment state)와 같이 사전에 선택된 에피소드 정보로부터 유도된 임베딩 (embedding)을 사용하여 의도를 인코딩하며, 이를 통해 자아 에이전트 (ego-agent)의 행동을 가이드합니다. 이러한 접근 방식은 선택된 정보가 의도를 보편적으로 대표한다고 가정합니다. 그러나 우리는 의도가 종종 작업(task) 및 환경에 따라 달라지기 때문에 이것이 사실이 아님을 경험적으로 보여줍니다. 이를 해결하기 위해, 우리는 성능 중심의 다중 의도 표현 (multiple intent representations) 혼합을 학습하는 작업 적응형 상대 모델링 (task-adaptive opponent modeling) 프레임워크를 소개합니다. 나아가, 우리는 자아 에이전트 (ego-agent)의 미래 수익 (future returns)과의 상호 정보량 (mutual information)을 최대화하는 새로운 의도 표현을 도입하여, 성능과 가장 직접적으로 관련된 상대방 정보를 포착합니다. 우리의 접근 방식은 다양한 작업에 걸쳐 최첨단 (state-of-the-art) 베이스라인 (baselines)의 성능과 일관되게 일치하거나 이를 능가하며, 서로 다른 상대 모델링 전략이 언제, 왜 성공하는지에 대한 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기