본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:43

회복 탄력성이 있는 사이버 물리 시스템을 위한 모델 프리 강화학습 (Model-Free Reinforcement Learning) 제어

요약

사이버 공격 상황에서 비선형 시스템의 회복 탄력성을 높이기 위한 모델 프리 강화학습 제어 기법을 연구합니다. 다양한 RL 보상 유형과 제어 알고리즘의 성능을 비교 분석하여 최적의 보상 설계 방안을 제시합니다.

핵심 포인트

  • Lyapunov 보상이 낮은 추적 오차와 가장 우수한 회복 탄력성을 제공함
  • PPO가 DDPG보다 KPI 분산을 줄이며 더 나은 성능을 보임
  • RL-MPC는 강력한 회복 탄력성을 갖지만 훈련 시간이 길음
  • RL-PID는 훈련 속도가 매우 빠르지만 성능 차이가 존재함

본 논문은 데이터 주입 공격 (False Data Injection) 및 서비스 거부 공격 (Denial-of-Service)을 포함한 사이버 공격 상황에서 비선형 시스템에 대한 모델 프리 (Model-free) 제어기의 성능을 비교합니다. 정확도, 비용 및 회복 탄력성 (Resilience) 측면에서 네 가지 강화학습 (RL) 보상 유형을 분석합니다. 결과에 따르면, 리아푸노프 (Lyapunov) 보상이 낮은 추적 오차와 함께 가장 우수한 회복 탄력성을 제공합니다. 지수 모드 (Exponential mode) 또한 적절한 훈련 조건 하에서 수용 가능한 회복 탄력성과 함께 좋은 절충안을 제공합니다. 점진적 (Progressive) 및 선형 (Linear) 보상은 더 빠르게 수렴하지만 강건성 (Robustness)은 떨어집니다. RL-MPC는 강력한 정상 상태 (Steady-state) 회복 탄력성을 보여주지만 더 긴 훈련 시간이 필요하며, RL-PID 제어기는 훈련 시간이 현저히 짧고 더 빠릅니다. 근사 정책 최적화 (Proximal Policy Optimization, PPO)는 심층 결정론적 정책 경사 (Deep Deterministic Policy Gradient, DDPG)보다 KPI 분산을 크게 줄이며 더 나은 성능을 보입니다. 본 연구는 잘 설계된 강화학습 (RL) 보상이 사이버 위협에 대한 성능과 회복 탄력성을 어떻게 향상시킬 수 있는지 강조하는 데 목적이 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0