강화학습 (Reinforcement Learning)을 이용한 자율 무인 잠수정 (AUV)의 엔드 투 엔드 (End-to-End) 경로 계획
요약
자율 무인 잠수정(AUV)의 경로 계획을 위해 원시 센서 데이터를 추진기 명령으로 직접 매핑하는 엔드 투 엔드 심층 강화학습 방식을 제안합니다. 계층적 강화학습(HRL) 구조를 통해 상위 수준의 공간적 목표 생성과 하위 수준의 제어를 분리하여 효율성을 높였습니다.
핵심 포인트
- 계층적 강화학습(HRL)을 통한 상위/하위 정책 분리
- SERL 및 SAC 알고리즘을 활용한 샘플 효율성 증대
- RRT* 베이스라인에 근접하는 궤적 길이 달성
- 센서 노이즈 및 가시성 저하에 대한 강건성 입증
- 미방문 지역의 새로운 장애물에 대한 일반화 한계 확인
자율 무인 잠수정 (Autonomous Underwater Vehicles, AUVs)은 전통적으로 인지 (Perception), 경로 계획 (Path Planning), 그리고 운동 제어 (Motion Control)를 위해 복잡하고 고도로 설계된 파이프라인에 의존해 왔습니다. 본 논문은 수동 엔지니어링을 줄이기 위해 원시 센서 데이터 (Raw Sensor Data)를 추진기 명령 (Thruster Commands)으로 직접 매핑하는 엔드 투 엔드 (End-to-End) 심층 강화학습 (Deep Reinforcement Learning, DRL) 접근 방식의 타당성을 탐구합니다. 우리는 문제를 두 개의 마르코프 결정 과정 (Markov Decision Processes, MDP)으로 나누는 계층적 강화학습 (Hierarchical Reinforcement Learning, HRL) 구조를 제안합니다. 2Hz로 작동하는 상위 수준 (High-Level, HL) 정책은 $84 imes 84$ 픽셀의 원시 단안 카메라 (Monocular Camera) 프레임, $100 imes 100$ 픽셀의 전방 감시 영상 소나 (Forward-looking Imaging Sonar), 그리고 고유 수용성 데이터 (Proprioceptive Data)를 처리하여 공간적 하위 목표 (Spatial Subgoals)를 생성합니다. 동시에 10Hz로 작동하는 하위 수준 (Low-Level, LL) 정책은 이러한 하위 목표를 추진기 명령으로 변환합니다. HL 정책은 수정된 샘플 효율적 로봇 강화학습 (Sample-Efficient Robotic Reinforcement Learning, SERL) 프레임워크 내에서 사전 시연을 통한 강화학습 (Reinforcement Learning from Prior Demonstrations, RLPD)을 사용하여 학습되는 반면, LL 정책은 사후 경험 재현 (Hindsight Experience Replay, HER)과 결합된 소프트 액터-크리틱 (Soft Actor-Critic, SAC)을 활용합니다. 고충실도 (High-fidelity) HoloOcean 시뮬레이터에서 평가한 결과, 우리의 방법은 성공적인 장애물 회피를 보여주었으며, $\text{RRT}^*$ 계획 베이스라인에 근접하는 (4%에서 6% 이내의) 궤적 길이를 달성했습니다. 또한, 학습된 정책은 시뮬레이션된 센서 노이즈 (Sensor Noise)와 가시성 저하에 대해 강력한 강건성 (Robustness)을 나타냅니다. 시스템이 익숙한 기하학적 구조에서는 효과적으로 항해하지만, 실험 결과 새로운 장애물 모양이 있는 미방문 지역을 만날 경우 일반화 (Generalization)의 한계가 있음이 드러났습니다. 궁극적으로, 본 연구는 최소한의 컴퓨팅 하드웨어를 사용하여 수중 항해를 위한 샘플 효율적인 엔드 투 엔드 DRL의 가능성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기