제약 조건이 있는 강화학습 (Constrained Reinforcement Learning)을 통한 전력 예산 기반 수중 이동체 제어
요약
수중 이동체의 에너지 효율적인 제어를 위해 전력 예산을 명시적 제약 조건으로 설정하는 Constrained Markov decision process 방식을 제안합니다. PPO-Lagrangian 알고리즘을 통해 수동적인 가중치 조정 없이도 에너지 소모를 최소화하며 임무를 수행할 수 있음을 입증했습니다.
핵심 포인트
- 에너지 예산을 물리적 단위의 제약 조건으로 공식화
- PPO-Lagrangian 알고리즘을 통한 온라인 쌍대 변수 업데이트
- 기존 방식 대비 전력 소모를 최대 64.9% 절감
- 가중치 재조정이 필요 없는 튜닝 프리(tuning-free) 제어 경로 제공
수중 이동체(Underwater vehicles)는 추진력에 의해 빠르게 소모되는 고정된 온보드 에너지 예산(onboard energy budget) 범위 내에서 작동하므로, 추진기 전력(thruster power)을 적게 소모하면서 임무를 완수하는 제어기는 미션 범위와 지속 시간을 직접적으로 연장합니다. 강화학습 (Reinforcement learning)은 위치 유지(station-keeping) 및 궤적 추적(trajectory tracking)을 위한 유능한 모델 프리 (model-free) 제어기를 생성하지만, 작업 정확도만을 최적화하면 정책이 진동적이고 에너지를 낭비하는 작동(actuation)으로 치닫게 됩니다. 기존의 해결책은 보상(reward)에서 에너지 페널티를 차감하는 방식이지만, 이는 물리적 단위가 없는 단일 가중치를 통해 작업-전력 트레이드오프(task-power trade-off)를 설정합니다. 즉, 목표 전력 수준을 지정할 수 없고, 모든 이동체와 작업에 대해 가중치를 매번 재조정해야 하며, 맞지 않는 가중치는 오히려 전력을 높일 수도 있습니다. 본 논문은 대신 에너지 효율적인 수중 제어를 평균 추진기 전력이 명시적인 예산의 제한을 받는 제약 조건이 있는 마르코프 결정 과정 (Constrained Markov decision process)으로 공식화하고, 이를 PPO-Lagrangian 알고리즘으로 해결합니다. 전력 수준은 물리적 단위로 예산을 선언함으로써 설정되며, 수동적인 가중치 탐색 없이 각 이동체와 작업에 대해 이를 충족하도록 단일 쌍대 변수 (dual variable)가 온라인으로 업데이트됩니다. MarineGym 시뮬레이터 내의 3가지 이동체와 4가지 작업에 걸쳐, 에너지 제약 정책은 12가지 설정 모두에서 가장 적은 전력을 소모하였으며, 작업 전용 베이스라인(task-only baseline) 대비 14~65%(최대 64.9%)를 절감했고, 모든 경우에서 에너지-보상 베이스라인(energy-reward baseline)보다 낮은 전력을 유지했습니다. 또한 10가지 설정에서 가장 부드러운 작동을 유지했으며, 의도적으로 전력이 제한된 한 가지 영역을 제외하고는 작업 정확도를 보존했습니다. 따라서 에너지를 명시적인 제약 조건으로 부과하는 것은 이동체별, 작업별 가중치 탐색이 필요 없는 에너지 효율적인 수중 제어를 위한 튜닝 프리 (tuning-free) 경로를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기