확률 제약 강화학습 (Chance-Constrained Reinforcement Learning)을 통한 분포 불가지론적 강건 궤적 최적화
요약
확률 제약 강화학습을 활용하여 분포 불가지론적 강건 궤적 최적화 프레임워크를 제안합니다. 불확실성 하에서도 확률적 타당성을 유지하며, 지구-화성 전이 및 로켓 착륙 시뮬레이션을 통해 성능을 검증했습니다.
핵심 포인트
- 분포 불가지론적 강건 궤적 최적화 프레임워크 제시
- 아핀 폐루프 보정 법칙을 통한 베이스라인 강건화
- 롤아웃 기반 상측 분위수를 통한 확률적 타당성 강제
- 우주선 궤적 및 로켓 착륙 등 다양한 사례에서 유효성 입증
본 논문은 확률 제약 강화학습 (Chance-Constrained Reinforcement Learning)에 기반한 분포 불가지론적 (distribution-agnostic) 강건 궤적 최적화 프레임워크를 제시합니다. 여기서 불확실성은 초기 조건과 프로세스 노이즈 (process noise)를 통해 표현되며, 유일한 요구 사항은 샘플링이 가능하다는 점입니다. 먼저 오프라인에서 결정론적 명목 궤적 (deterministic nominal trajectory)을 계산한 다음, 피드포워드 제어 조정 (feedforward control adjustment)과 시변 피드백 이득 (time-varying feedback gains)으로 구성된 구조화된 아핀 폐루프 보정 법칙 (structured affine closed-loop correction law)을 통해 해당 베이스라인을 강건화하는 데에만 강화학습 (Reinforcement Learning)을 사용합니다. 확률적 타당성 (Probabilistic feasibility)은 롤아웃 기반 상측 분위수 (rollout-based upper-tail quantiles)를 통해 경험적으로 강제되는 반면, 최종 분산 (terminal dispersion)은 공분산 타당성 페널티 (covariance-feasibility penalties)를 통해 조절됩니다. 이 프레임워크는 본질적으로 서로 다른 두 가지 궤적 설계 문제에 대해 평가되었습니다. 주요 사례 연구는 3차원 다중 임펄스 지구-화성 전이 (three-dimensional multi-impulse Earth-Mars transfer)로, 학습된 정책을 가우시안 불확실성 (Gaussian uncertainty) 하에서 최근의 강건 궤적 최적화 참조 모델과 비교 벤치마킹하고, 이어서 유계 균등 불확실성 (bounded uniform uncertainty) 및 학습 중에 보지 못한 프로세스 교란 (process disturbances) 하에서 평가합니다. 두 번째 사례 연구는 확률적 대기 정밀 로켓 착륙 (stochastic atmospheric pinpoint rocket landing) 문제로, 항력 (drag), 질량 감소 (mass depletion), 글라이드 슬로프 제약 (glide-slope constraints)이 있는 단기 수평 추력 설정 (short-horizon continuous-thrust setting)으로의 이식성을 평가하는 데 사용되었습니다. 결과에 따르면, 제안된 프레임워크는 확률적 타당성을 유지하면서 상측 연료 비용 (upper-tail fuel cost) 측면에서 경쟁력을 유지할 수 있으며, 동일한 강건화 스캐폴드 (robustification scaffold)를 핵심 확률 제어 구조의 재설계 없이 이질적인 우주선 궤적 계획 문제 전반에 걸쳐 적용할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기