Self-Play를 넘어: 폐쇄 루프 교통 시뮬레이션의 연속 동작을 위한 계층적 추론
요약
본 논문은 기존의 셀프-플레이 강화학습이 포착하지 못했던 인간 운전자의 사회적 인지 능력을 반영하기 위해 계층적 추론 아키텍처를 제안합니다. 이 프레임워크는 상위 레벨에서 스태켈베르크 스타일의 다중 에이전트 강화학습(MARL)을 사용하여 전략적 의도 명령을 생성하고, 이를 하위 레벨 연속 동작 모듈에 전달하여 물리적으로 일관되고 환경 반응적인 제어 시퀀스로 변환합니다. 또한, 분포 이동 문제를 해결하기 위해 MARL과 보조 복구 감독을 결합한 공동 훈련 방식을 도입했으며, SUMO 기반 테스트에서 높은 안전성과 효율성을 입증했습니다.
핵심 포인트
- 기존 셀프-플레이 RL의 한계: 단순한 평형 전략으로는 인간 운전자의 사회적 인지 능력을 포착하기 어려움.
- 제안된 계층적 아키텍처: 상위 레벨(MARL)에서 '의도'를 생성하고, 하위 레벨 모듈이 이를 물리적 '행동'으로 구현함.
- 하이브리드 공동 훈련 방식: MARL과 보조 복구 감독을 결합하여 폐쇄 루프 환경에서의 분포 이동 문제를 완화함.
- 실험 결과: SUMO 기반 테스트에서 제안된 프레임워크가 기존 방법론 대비 우수한 안전성, 부드러움 및 교통 효율성을 보여줌.
폐쇄 루프(closed-loop) 교통 시뮬레이션은 확장 가능하면서도 행동적으로 현실적인 에이전트를 필요로 합니다. 최근의 셀프-플레이 강화학습(self-play reinforcement learning) 접근 방식들은 강력한 확장성을 보여주지만, 이들의 평형 전략은 실제 인간 운전자들이 가진 사회적 인지 능력을 포착하는 데 실패합니다. 우리는 고수준 다중 에이전트 상호작용 추론과 저수준 연속 궤적 실현을 결합하여 셀프-플레이를 넘어서는 계층적 아키텍처를 제안합니다. 구체적으로, 스태켈베르크(Stackelberg)-스타일의 다중 에이전트 강화학습(MARL) 모듈이 상호작용 인지 의도 명령을 생성합니다. 이 명령들은 저수준 연속 동작 모듈에 조건을 부여하여, 전략적 의도를 물리적으로 일관되고 장면 반응적인 제어 시퀀스로 변환합니다. 폐쇄 루프 배포 환경에서 분포 이동(distribution shift)을 완화하기 위해, 우리는 MARL과 보조 복구 감독(auxiliary recovery supervision)을 결합한 하이브리드 공동 훈련 방식(hybrid co-training scheme)을 도입합니다. SUMO 기반 도시 네트워크에서의 실험 결과는 제안된 프레임워크가 셀프-플레이 및 수동 모방(passive imitation) 기준선 대비 우수한 제어 부드러움과 안전성을 달성하는 동시에, 경쟁력 있는 교통 효율성을 유지함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기