대기권 재진입 중 우주선의 자세 제어를 위한 심층 강화학습 (Deep Reinforcement Learning)
요약
우주선 재진입 시의 자세 제어를 위해 심층 강화학습(DRL)을 적용한 연구입니다. 전통적인 PID 제어기와 비교하여 동역학 무작위화를 통해 일반화 성능을 높였으며, 하이브리드 제어 방식이 변화하는 환경에서도 더 강건한 성능을 보임을 입증했습니다.
핵심 포인트
- 심층 강화학습을 통한 우주선 재진입 자세 제어 최적화
- 동역학 무작위화를 활용한 분포 외(OOD) 일반화 능력 강화
- PID 제어기와 RL을 결합한 하이브리드 제어기의 우수한 강건성
- 질량 및 관성 변화 등 불확실한 환경에서의 정밀한 제어 성능 확인
심층 강화학습 (Deep reinforcement learning)은 전통적인 자세 제어 방식보다 비선형 동역학 (nonlinear dynamics), 불확실성 (uncertainties), 그리고 고장 사례 (failure cases)를 더 효과적으로 처리함으로써 자세 제어 문제를 더욱 적응적이고 정밀하며 강건하게 해결할 수 있는 잠재력을 가지고 있습니다. 본 연구에서는 우주선 재진입 (re-entry) 시의 자세 제어를 위한 강화학습 (RL)을 탐구합니다. 게인 스케줄링 (gain scheduling)이 적용된 산업 표준 비례-적분-미분 (PID) 제어기는 모델 프리 (model-free) RL 및 이 두 가지 접근 방식을 결합한 하이브리드 제어기의 강력한 베이스라인 역할을 합니다. 우리는 연속적이고 오프-폴리시 (off-policy) RL을 적용하기 위해 이 응용 분야를 RL 프레임워크로 공식화합니다. 최첨단 (State-of-the-art) RL은 이 분야에서 전통적인 제어 방식과 대등한 성능을 달성합니다. 그러나 분포 외 (out-of-distribution) 일반화 능력은 충분하지 않습니다. 따라서 우리는 동역학 무작위화 (dynamics randomization)를 사용하여 훈련 중에 도전적인 작업 변동을 도입하고, 미리 정의된 운용 범위 (operational envelope) 내에서 일반화를 강제합니다. 마지막으로, 우리는 응용 분야별 지표를 사용하여 얻은 최적의 RL 기반 제어기를 평가함으로써, 운용 범위 내에서 전통적인 제어기와 비교하여 우수한 성능을 보여줍니다. 즉, 하이브리드 제어기는 받음각 (angle of attack)을 더 잘 추적할 수 있으며 질량 (mass), 관성 텐서 (inertia tensor), 그리고 플랩 액추에이터 대역폭 (flap actuator bandwidth)의 변화 하에서 더 강건합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기