대기권 재진입 중 우주선의 자세 제어를 위한 심층 강화학습 (Deep Reinforcement Learning)

심층 강화학습 (Deep reinforcement learning)은 전통적인 자세 제어 방식보다 비선형 동역학 (nonlinear dynamics), 불확실성 (uncertainties), 그리고 고장 사례 (failure cases)를 더 효과적으로 처리함으로써 자세 제어 문제를 더욱 적응적이고 정밀하며 강건하게 해결할 수 있는 잠재력을 가지고 있습니다. 본 연구에서는 우주선 재진입 (re-entry) 시의 자세 제어를 위한 강화학습 (RL)을 탐구합니다. 게인 스케줄링 (gain scheduling)이 적용된 산업 표준 비례-적분-미분 (PID) 제어기는 모델 프리 (model-free) RL 및 이 두 가지 접근 방식을 결합한 하이브리드 제어기의 강력한 베이스라인 역할을 합니다. 우리는 연속적이고 오프-폴리시 (off-policy) RL을 적용하기 위해 이 응용 분야를 RL 프레임워크로 공식화합니다. 최첨단 (State-of-the-art) RL은 이 분야에서 전통적인 제어 방식과 대등한 성능을 달성합니다. 그러나 분포 외 (out-of-distribution) 일반화 능력은 충분하지 않습니다. 따라서 우리는 동역학 무작위화 (dynamics randomization)를 사용하여 훈련 중에 도전적인 작업 변동을 도입하고, 미리 정의된 운용 범위 (operational envelope) 내에서 일반화를 강제합니다. 마지막으로, 우리는 응용 분야별 지표를 사용하여 얻은 최적의 RL 기반 제어기를 평가함으로써, 운용 범위 내에서 전통적인 제어기와 비교하여 우수한 성능을 보여줍니다. 즉, 하이브리드 제어기는 받음각 (angle of attack)을 더 잘 추적할 수 있으며 질량 (mass), 관성 텐서 (inertia tensor), 그리고 플랩 액추에이터 대역폭 (flap actuator bandwidth)의 변화 하에서 더 강건합니다.

Insights

대기권 재진입 중 우주선의 자세 제어를 위한 심층 강화학습 (Deep Reinforcement Learning)

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들