arXiv논문2026. 05. 05. 16:58

전문화 너머: 절차적 맵 생성기를 통한 견고한 강화학습 내비게이션

요약

본 연구는 기존 심층 강화학습(DRL) 내비게이션 정책이 환경 구조에 과적합되는 문제를 해결하기 위해, 네 가지 유형의 절차적 맵 생성기(희소, 미로, 그래프, 파동 함수 붕괴)를 통합하여 견고한 학습 프레임워크를 제안합니다. 실험 결과, 단일 생성기에 국한된 정책보다 여러 생성기를 결합하여 훈련된 정책이 평균 91.5%의 높은 성공률을 달성하며 뛰어난 일반화 성능을 보였습니다. 또한 A* 경로 계획기 서브모듈의 통합과 학습된 속도 적응 능력이 기존의 고전적 컨트롤러 대비 월등한 성능 향상을 가져옴을 입증했습니다.

핵심 포인트

절차적 맵 생성기의 결합(Ensemble)은 DRL 내비게이션 정책의 일반화 성능과 견고성을 크게 향상시킨다.
A* 경로 계획기 서브모듈의 통합은 성공률을 현저히 높이는 핵심 요소로 작용한다.
DRL 정책은 학습된 속도 적응 능력을 통해 고전적인 컨트롤러(예: Carrot+A*)보다 우수한 성능을 보인다.
실제 환경 실험(RoboMaster)을 통해 시뮬레이션-실제 전이(Sim-to-Real Transfer)가 성공적으로 확인되었다.

심층 강화학습 (DRL) 내비게이션 정책은 환경의 구조에 과적합하는 경향이 있으며, 이는 다양한 시나리오를 설계하기 위해 필요한 수동 노력이 환경 다양성을 일반적으로 제한하기 때문입니다. 절차적 맵 생성기는 확장 가능한 다양성을 제공하지만, 다른 생성기 유형이 정책 일반화에 미치는 영향을 체계적으로 비교한 기존 연구는 없습니다. 우리는 2D 시뮬레이터 MuRoSim (LiDAR 기반 내비게이션 훈련 효율에 중점) 에 네 가지 생성기 (희소, 미로, 그래프, 그리고 파동 함수 붕괴) 를 통합했습니다. 우리는 세 개의 훈련 시드에서 각 생성기에 대해 1000 개 시드 맵을 기준으로 5 개의 내비게이션 정책을 교차 평가했습니다. 결과는 강한 비대칭적 생성기 간 전이 (cross-generator transfer) 를 보여줍니다: 희소 레이아웃에 훈련된 전문가의 미로에서는 성공률이 3.3% 로 떨어지지만, 결합된 생성기 세트에 훈련된 정책은 평균 성공률 91.5 +/- 1.1% 를 달성합니다. 우리는 또한 A* 경로 계획기 서브고입력이 견고성의 지배적 요인임을 입증하여, 피드포워드 기반선 (baseline) 의 90.2 +/- 1.4% 에서 98.9 +/- 0.4% 로 성공률을 높이고 GRU 회귀를 능가했습니다. 이는 반응성 기반선보다 더 높은 성능을 보였습니다. DRL 정책은 낮은 속도 (1.0 m/s) 만에서 성공률만 일치하지만, 2.0 m/s 에서는 24.9% 로 붕괴하는 고전적인 Carrot+A* 컨트롤러를 능가합니다. 이는 학습된 속도 적응이 학습 접근법의 결정적 우위임을 강조합니다. RoboMaster 의 실제 환경 실험은 혼잡한 경기장에서 시뮬레이션-실제 전이를 확인했으며, 미로와 같은 레이아웃은 회귀가 완화하는 잔류 실패 모드를 노출했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

전문화 너머: 절차적 맵 생성기를 통한 견고한 강화학습 내비게이션

요약

핵심 포인트

댓글