arXiv논문2026. 06. 18. 11:47

R2D-RL: 다중 에이전트 강화학습 (MARL)을 위한 RoboCup 2D 축구 환경

요약

RCSS2D 로봇 축구 환경을 현대적인 Python 기반 MARL 워크플로우에 통합하기 위한 R2D-RL 환경을 소개합니다. 공유 메모리 통신과 동기화 기술을 통해 다중 에이전트 강화학습 연구를 위한 효율적인 테스트베드를 제공합니다.

핵심 포인트

RCSS2D와 Python MARL 인터페이스 간의 연결 지원
공유 메모리 통신 및 사이클 수준 동기화 구현
액션 마스크 및 EPV 기반 보상 형성 기능 제공
11 대 11 전체 경기장 및 시나리오 기반 벤치마크 지원

로봇 축구는 부분 관측 가능성 (Partial Observability), 협력적 및 적대적 상호작용 (Cooperative and Adversarial Interaction), 희소 보상 (Sparse Rewards), 그리고 장기적 전술 행동 (Long-horizon Tactical Behavior)이 결합되어 있기 때문에 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)을 위한 도전적인 테스트베드입니다. RoboCup 2D Soccer Simulation (RCSS2D)은 성숙한 로봇 축구 플랫폼을 제공하지만, 경쟁 중심의 서버-클라이언트 구조로 인해 현대적인 Python 기반 MARL 워크플로우와 직접 사용하기에는 어려움이 있습니다. 우리는 공유 메모리 통신 (Shared-memory Communication)과 사이클 수준 동기화 (Cycle-level Synchronization)를 통해 RCSS2D와 HELIOS 기반 플레이어 클라이언트를 Python MARL 인터페이스에 연결하는 강화학습 환경인 R2D-RL을 소개합니다. R2D-RL은 구성 가능한 상대, 기본 이산 및 하이브리드 매개변수화된 액션 공간 (Base Discrete and Hybrid Parameterized Action Spaces), 액션 마스크 (Action Masks), 기대 점유 가치 (Expected Possession Value, EPV) 기반 보상 형성 (Reward Shaping), 그리고 병렬 실행을 지원하며, 전체 경기장 및 시나리오 기반 학습을 지원합니다. 우리는 베이스라인 결과와 함께 프런트 골 (Front-goal) 시나리오 및 11 대 11 전체 경기장 벤치마크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

R2D-RL: 다중 에이전트 강화학습 (MARL)을 위한 RoboCup 2D 축구 환경

요약

핵심 포인트

댓글