강화학습을 이용한 쿼드로터의 적응형 외곽 루프 제어
요약
기존의 도메인 무작위화 방식이 가진 보수적인 정책 문제를 해결하기 위해, 잔차 역학 예측기(RDP)를 활용한 새로운 적응형 외곽 루프 제어 아키텍처를 제안합니다. 이 시스템은 비행 중 상태와 제어 이력을 통해 외력을 온라인으로 추정하며, 선형 보정 브리지를 통해 시뮬레이션과 실제 환경 간의 간극을 효율적으로 메웁니다. 실제 Crazyflie 마이크로 쿼드로터 실험을 통해 질량 변화 및 비대칭 하중 등 심각한 불확실성 상황에서도 뛰어난 궤적 추적 성능을 입증했습니다.
핵심 포인트
- 잔차 역학 예측기(RDP)를 도입하여 실제 외란 데이터를 대신해 온라인으로 외력과 모멘트를 추정함
- 데이터 효율적인 선형 보정 브리지와 온라인 추력 보정 메커니즘으로 sim-to-real 전이 성능 향상
- 질량 변화, 비대칭 페이로드, 동적 매달린 하중 등 복합적인 불확실성 환경에서도 정밀한 제어 가능
- 기존 도메인 무작위화(DR) 방식보다 동적 외란에 더 민첩하고 정밀하게 반응하는 정책 구현
쿼드로터 (quadrotor) 비행 제어를 위한 심층 강화학습 (Deep Reinforcement Learning, DRL)은 일반적으로 시뮬레이션에서 실물로의 전이 (sim-to-real transfer)를 위해 도메인 무작위화 (Domain Randomization, DR)에 의존하며, 이는 동적인 외란 (dynamic disturbances)에 취약한 지나치게 보수적인 정책 (policies)을 초래합니다. 이를 극복하기 위해, 우리는 순간적인 섭동 (perturbations)을 능동적으로 인지하고 반응하는 새로운 적응형 제어 아키텍처를 제안합니다. 먼저, 최적의 외곽 루프 (outer-loop) 정책을 학습시킨 후, 해당 정책이 실제값 (ground-truth) 외란 데이터에 의존하는 대신 잔차 역학 예측기 (Residual Dynamics Predictor, RDP)를 사용하도록 대체합니다. RDP는 상태 (states)와 제어 동작 (control actions)의 이력만을 사용하여 비행 중 항공기에 작용하는 외력 (external forces)과 모멘트 (moments)를 온라인으로 추정합니다. 원활한 하드웨어 전이를 위해, 우리는 단 몇 초간의 비행 데이터만으로 시뮬레이션된 잠재 공간 (latent space)을 실제와 일치시키는 데이터 효율적인 선형 보정 브리지 (linear calibration bridge)와 온라인 추력 보정 메커니즘을 도입합니다. Crazyflie 마이크로 쿼드로터 (micro-quadrotor)를 이용한 실제 환경 검증 결과, 우리의 적응형 제어기가 질량 변화 (mass variations), 비대칭 페이로드 (asymmetric payloads), 동적 매달린 하중 (dynamic slung loads)을 포함한 심각한 불확실성 하에서도 정밀한 궤적 추적 (trajectory tracking)을 유지하며 베이스라인 (baselines) 모델보다 성능이 크게 뛰어남을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기