arXiv논문2026. 05. 22. 11:28

다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning)을 통한 초인적인 안전하고 민첩한 레이싱

요약

다중 에이전트 강화학습(MARL)을 활용하여 고속 쿼드로터 레이싱에서 인간 조종사를 능가하는 성능을 달성했습니다. 리그 기반 셀프 플레이를 통해 복잡한 공기역학적 상호작용과 충돌 회피를 학습하여 안전성과 민첩성을 동시에 확보했습니다.

핵심 포인트

MARL을 통해 단일 에이전트 대비 충돌률 50% 감소
리그 기반 셀프 플레이로 정교한 예측 행동 진화
22 m/s 이상의 고속 레이싱에서 인간 조종사 능가
다양한 에이전트와의 훈련으로 제로샷 일반화 달성

자율 시스템 (Autonomous systems)은 고립된 환경이나 시뮬레이션 내에서는 초인적인 성능을 달성했지만, 공유되고 역동적인 실제 환경에서는 여전히 취약한 모습을 보입니다. 이러한 실패는 물리적 응용 분야에서 지배적인 단일 에이전트 (single-agent) 패러다임에서 기인하며, 이 방식에서는 다른 행위자들을 무시하거나 환경 노이즈로 취급하여 효과적인 협업을 방해합니다. 본 연구에서는 다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)이 실제 상호작용에 필요한 필수적인 안전 지지대 (safety scaffolding)를 제공한다는 것을 보여줍니다. 높은 위험도가 따르는 테스트베드인 고속 쿼드로터 (quadrotor) 레이싱을 사용하여, 우리는 가변적인 수의 레이서들과 함께 복잡한 공기역학적 상호작용 및 전략적 기동을 수행하도록 에이전트를 훈련시킵니다. 리그 기반의 셀프 플레이 (league-based self-play)를 통해, 에이전트는 선제적 충돌 회피, 추월, 그리고 공기역학적 다운워시 (aerodynamic downwash)를 포함한 다중 에이전트 물리적 상호작용을 처리하는 것과 같은 정교한 예측 행동을 진화시킵니다. 우리의 에이전트는 22 m/s를 초과하는 속도의 다인용 레이스에서 챔피언급 인간 조종사를 능가하는 동시에, 최첨단 단일 에이전트 베이스라인 (single-agent baselines) 대비 충돌률을 50% 감소시켰습니다. 결정적으로, 다양한 인공 에이전트와 함께 훈련함으로써 더 안전한 인간과의 상호작용에 대한 제로샷 일반화 (zero-shot generalization)가 가능해졌습니다. 이러한 결과는 강건한 로봇 공존 (robotic co-existence)으로 가는 길이 고립된 안전 제약 조건이 아니라, 다중 에이전트 상호작용의 엄격한 요구 사항에 있음을 시사합니다. 멀티미디어 자료는 다음에서 확인할 수 있습니다: https://rpg.ifi.uzh.ch/marl

AI 자동 생성 콘텐츠

원문 바로가기

다중 에이전트 강화학습 (Multi-Agent Reinforcement Learning)을 통한 초인적인 안전하고 민첩한 레이싱

요약

핵심 포인트

댓글