arXiv논문2026. 06. 01. 12:03

타인을 꿈꾸다: 다중 에이전트 강화학습 (MARL)을 위한 월드 모델 내 잠재적 팀원 모델링

요약

MARL 환경에서 팀원의 의도를 파악하기 위해 월드 모델 내에 팀원 모델링을 통합하는 새로운 아키텍처를 제안합니다. RSSM의 잠재 상태를 환경과 팀원으로 분해하고 마음 이론(ToM) 헤드를 통해 파트너의 성격과 의도를 추론합니다.

핵심 포인트

월드 모델 내에 학습 가능한 팀원 구성 요소 도입
RSSM 잠재 상태를 환경과 팀원 요소로 분해
마음 이론(ToM)을 통한 파트너 행동 잠재 임베딩 추론
제로샷 및 퓨샷 협력 지원을 위한 벤치마크 제안

협력적 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)에서 에이전트는 내부 정책 (Policy)과 의도를 직접 관찰할 수 없는 파트너와 협력해야 합니다. Dreamer와 같은 월드 모델 (World Models)은 단일 에이전트 환경에서 강력한 일반화 성능과 샘플 효율성 (Sample Efficiency)을 입증했지만, 팀원으로 인해 발생하는 불확실성을 처리하지 못한다는 한계로 인해 MARL에 적용하는 데에는 여전히 제약이 있습니다. 우리는 새로운 관점을 제안합니다. 즉, 팀원을 에이전트의 월드 모델 내에서 구조화되고 학습 가능한 구성 요소로 취급하는 것입니다. 우리는 Dreamer 스타일의 순환 상태 공간 모델 (Recurrent State-Space Model, RSSM)의 잠재 상태 (Latent State)를 환경과 팀원 구성 요소로 분해하고, 부분적인 궤적 (Trajectories)으로부터 성격, 의도, 예측된 행동과 같은 파트너 행동의 잠재 임베딩 (Latent Embeddings)을 추론하기 위한 보조적인 마음 이론 (Theory-of-Mind, ToM) 헤드를 학습하는 아키텍처를 도입합니다. 이러한 팀원 잠재 변수 (Teammate Latents)는 액터 (Actor)와 크리틱 (Critic)의 조건 (Conditioning)이 되어, 에이전트가 다양한 협력자를 상상하고 이에 적응할 수 있게 합니다. 우리는 이 접근 방식이 부분 관측 가능 (Partially Observable) 환경에서 제로샷 (Zero-shot) 및 퓨샷 (Few-shot) 협력을 어떻게 지원할 수 있는지 설명하고, 그 영향을 평가하기 위한 일련의 벤치마크와 평가 프로토콜을 제안합니다. 본 연구는 월드 모델을 단순히 환경 역학 (Environmental Dynamics)의 예측기가 아니라 사회적 행동의 시뮬레이터로 위치시킴으로써, 일반화 가능하고 인간과 호환 가능한 AI를 위한 새로운 방향을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

타인을 꿈꾸다: 다중 에이전트 강화학습 (MARL)을 위한 월드 모델 내 잠재적 팀원 모델링

요약

핵심 포인트

댓글