arXiv논문2026. 06. 15. 11:38

CSPO: 안전한 강화학습을 위한 제약 조건 민감 정책 최적화

요약

안전한 강화학습(Safe RL)에서 발생하는 진동 현상과 제약 조건 위반 문제를 해결하기 위한 CSPO 방법론을 제안합니다. 국소적 제약 조건 민감도를 정책 업데이트에 통합하여 KKT 해를 보존하고 더 빠른 안전 회복을 가능하게 합니다.

핵심 포인트

Primal-dual 방식의 지연된 제약 조건 수정을 보완하는 CSPO 제안
국소적 제약 조건 민감도를 활용해 경계 근처의 진동 현상 감소
KKT 해를 보존하여 안전 상태로의 스마트한 회복 단계 제공
내비게이션 및 로코모션 벤치마크에서 높은 제약 조건 수익 입증

안전한 강화학습 (Safe RL)은 일반적으로 제약 조건이 있는 마르코프 결정 과정 (Constrained Markov Decision Processes, CMDPs)으로 모델링되는 안전 제약 조건을 만족하면서 기대 수익 (expected return)을 최대화하는 것을 목표로 합니다. Primal-dual 방법론은 심층 강화학습 (Deep RL)으로 잘 확장되지만, 제약 조건 수정이 지연되는 경우가 많아 진동 현상 (oscillatory behavior)과 장기적인 안전 위반을 초래하곤 합니다. 본 논문에서는 정책 업데이트에 국소적 제약 조건 민감도 (local constraint sensitivity)를 통합하는 1차 primal-dual 방법론인 CSPO (Constraint-Sensitive Policy Optimization)를 제안합니다. CSPO는 안전 경계까지의 최단 부호 거리 (shortest signed distance)에서 유도된 제약 조건 민감 수정 사항을 primal 목적 함수에 증강하여, 지연된 라그랑주 승수 (Lagrange multiplier) 업데이트를 보완하고, 경계 근처에서의 진동을 줄이며, 원래 제약 조건 문제의 KKT 해 (KKT solutions)를 보존함으로써 안전 상태로의 더 스마트한 회복 단계를 가능하게 합니다. 내비게이션 및 로코모션 (locomotion) 벤치마크 실험을 통해 CSPO가 더 빠른 안전 회복과 높은 보상 보존을 달성하며, 최신 primal-dual 및 페널티 기반 (penalty-based) 방법들과 비교하여 더 높은 제약 조건 수익 (constrained returns)을 얻음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CSPO: 안전한 강화학습을 위한 제약 조건 민감 정책 최적화

요약

핵심 포인트

댓글