arXiv논문2026. 05. 01. 21:37

제약 조건 탐색을 위한 페널티 정규화를 통한 전역 최적성

요약

본 연구는 안전성이나 자원 등의 제약 조건이 존재하는 환경에서 효율적이고 전역적으로 최적인 정책을 찾는 문제를 다룹니다. 기존의 방법들이 약한 후회나 에르고딕 평균에 국한되어 실질적인 배포가 어려운 한계를 가졌기 때문에, 본 논문에서는 'Policy Gradient Penalty (PGP)'라는 새로운 방법을 제안합니다. PGP는 볼록 점유 측정 제약 조건을 제곱 페널티 정규화로 강제하고, 정책 경사 정리와 규칙성 분석을 통해 전역적인 근최적 및 거의 실현 가능한 단일 배포 가능 정책의 수렴을 보장하는 것이 핵심입니다.

핵심 포인트

강화학습에서 제약 조건이 있는 탐색(Constrained Exploration)은 엔트로피 최대화가 가법 구조를 갖지 않아 기존 벨만 방정식 기반 방법 적용이 어렵다.
제안된 Policy Gradient Penalty (PGP)는 볼록 점유 측정 제약 조건을 제곱 페널티 정규화로 처리하는 단일 루프 정책 공간 접근법이다.
PGP는 가상의 보상(pseudo-rewards)을 구성하고 고전적인 정책 경사 정리(Policy Gradient Theorem)를 활용하여 학습한다.
본 연구는 숨겨진 볼록성과 강한 쌍대성을 이용하여, 비볼록성에도 불구하고 전역 마지막 반복 수렴 및 $\epsilon$-최적 제약 엔트로피 값 달성을 보장한다.

효율적인 탐색은 강화학습의 핵심 문제 중 하나이며, 종종 상태-행동 점유 측정 (state-action occupancy measure) 의 엔트로피를 최대화하는 형태로 공식화됩니다. 비제약 조건 하의 최대 엔트로피 탐색은 비교적 잘 이해되어 왔으나, 실제 세계의 탐색은 안전성, 자원, 또는 모방 요구사항 등으로 인해 제약받는 경우가 많습니다. 이 제약 조건이 있는 설정은 특히 도전적이며, 엔트로피 최대화는 가법 구조 (additive structure) 를 갖지 않아 벨만 방정식 기반 (Bellman-equation-based) 방법들의 적용을 불가능하게 만들기 때문입니다. 또한, 확장 가능한 접근법은 정책 파라미터화 (policy parameterization) 를 필요로 하므로 목적 함수와 제약 조건 모두에서 비볼록성 (non-convexity) 을 유발합니다. 저의 지식에 따르면, 일반적인 정책 파라미터화 하에서 이 설정을 위한 유일한 모델 프리 (model-free) 정책 경사 (policy-gradient) 접근법은 Ying et al. (2025) 에 의해 제안된 것입니다. 불행히도, 그들의 보장은 약한 후회 (weak regret) 와 에르고딕 평균 (ergodic averages) 에 국한되어 있어, 최종 출력이 근최적 (near-optimal) 이고 거의 실현 가능 (nearly feasible) 인 단일 배포 가능한 정책임을 보장하지는 않습니다. 본 연구에서는 이 문제에 대해 다른 접근 방식을 취하며, 제곱 페널티 정규화 (quadratic-penalty regularization) 를 통해 일반적인 볼록 점유 측정 (convex occupancy-measure) 제약 조건을 강제하는 단일 루프 정책 공간 (single-loop policy-space) 방법인 Policy Gradient Penalty (PGP) 방법을 제안합니다. PGP 는 페널리된 목적 함수의 경사 추정치를 생성하는 가상의 보상 (pseudo-rewards) 을 구성한 다음, 고전적인 정책 경사 정리 (Policy Gradient Theorem) 를 활용합니다. 우리는 또한 페널티된 목적 함수의 규칙성 (regularity) 을 확립하여 PGP 의 수렴을 정당화하기 위해 필요한 매끄러움 (smoothness) 속성을 제공합니다. 숨겨진 볼록성 (hidden convexity) 과 강한 쌍대성 (strong duality) 을 활용하여 정책 유도 비볼록성에도 불구하고 $ε$-최적 제약 엔트로피 값을 달성하고 $ε$ 범위의 제약 위반을 갖는 전역 마지막 반복 수렴 (global last-iterate convergence) 보장을 확립합니다. 우리는 그리드 월드 벤치마크 (grid-world benchmark) 에 대한 애블레이션 (ablations) 을 통해 PGP 를 검증한 후, 두 가지 도전적인 연속 제어 작업 (continuous-control tasks) 에서 확장 가능성을 추가로 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

제약 조건 탐색을 위한 페널티 정규화를 통한 전역 최적성

요약

핵심 포인트

댓글