arXiv논문2026. 06. 15. 12:37

다중 목적 다중 에이전트 강화학습 (Multi-Objective Multi-Agent Reinforcement Learning)을 위한 협력적

요약

상충하는 여러 목적을 가진 다중 에이전트 환경에서 협력적 의사결정을 위한 PCMA 모델을 제안합니다. 에이전트 간의 선호도를 조정하여 팀 전체의 성능과 트레이드오프 조율 능력을 향상시키는 이론적 근거와 실험 결과를 제시합니다.

핵심 포인트

상충하는 목적을 가진 MOMARL 환경을 팀 최적 게임으로 공식화
에이전트별 선호도를 학습하는 PCMA 알고리즘 제안
선호도 다양성이 팀 성능 향상을 유도함을 이론적으로 증명
교통 제어 등 실제 시나리오에서 성능 및 트레이드오프 조정 능력 입증

협력적 다중 목적 다중 에이전트 강화학습 (Cooperative Multi-Objective Multi-Agent Reinforcement Learning, MOMARL) 모델은 잠재적으로 상충할 수 있는 여러 목적 하에서의 팀 의사결정을 모델링합니다. 이러한 설정에서는 목적 간의 충돌뿐만 아니라, 서로 다른 관측값(observations), 역할(roles), 기여도(contributions)를 가진 에이전트 간의 충돌도 발생합니다. 본 논문에서는 에이전트 간의 상호 보완적인 트레이드오프 (trade-offs)를 가능하게 하기 위해, 협력적인 에이전트별 선호도를 학습하는 선호도 조정 다중 에이전트 정책 최적화 (Preference Coordinated Multi-agent Policy Optimization, PCMA)를 제안합니다. 이론적으로, 우리는 협력적 MOMARL을 팀 최적 게임 (team-optimal game)으로 공식화하며, 적절한 조건 하에서 선호도 다양성 (preference diversity)이 1차 개선 분해 (first-order improvement decomposition)를 통해 팀의 성능 향상을 유도할 수 있음을 보여줍니다. 다양한 협력적 MOMA 환경과 실제 교통 제어 (traffic-control) 시나리오에서의 실험을 통해, PCMA가 성능과 트레이드오프 조정 (trade-off coordination) 모두를 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중 목적 다중 에이전트 강화학습 (Multi-Objective Multi-Agent Reinforcement Learning)을 위한 협력적

요약

핵심 포인트

댓글