본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 21:37

제약 조건 탐색을 위한 페널티 정규화를 통한 전역 최적성

요약

본 연구는 안전성이나 자원 등의 제약 조건이 존재하는 환경에서 효율적이고 전역적으로 최적인 정책을 찾는 문제를 다룹니다. 기존의 방법들이 약한 후회나 에르고딕 평균에 국한되어 실질적인 배포가 어려운 한계를 가졌기 때문에, 본 논문에서는 'Policy Gradient Penalty (PGP)'라는 새로운 방법을 제안합니다. PGP는 볼록 점유 측정 제약 조건을 제곱 페널티 정규화로 강제하고, 정책 경사 정리와 규칙성 분석을 통해 전역적인 근최적 및 거의 실현 가능한 단일 배포 가능 정책의 수렴을 보장하는 것이 핵심입니다.

핵심 포인트

  • 강화학습에서 제약 조건이 있는 탐색(Constrained Exploration)은 엔트로피 최대화가 가법 구조를 갖지 않아 기존 벨만 방정식 기반 방법 적용이 어렵다.
  • 제안된 Policy Gradient Penalty (PGP)는 볼록 점유 측정 제약 조건을 제곱 페널티 정규화로 처리하는 단일 루프 정책 공간 접근법이다.
  • PGP는 가상의 보상(pseudo-rewards)을 구성하고 고전적인 정책 경사 정리(Policy Gradient Theorem)를 활용하여 학습한다.
  • 본 연구는 숨겨진 볼록성과 강한 쌍대성을 이용하여, 비볼록성에도 불구하고 전역 마지막 반복 수렴 및 $\epsilon$-최적 제약 엔트로피 값 달성을 보장한다.

효율적인 탐색은 강화학습의 핵심 문제 중 하나이며, 종종 상태-행동 점유 측정 (state-action occupancy measure) 의 엔트로피를 최대화하는 형태로 공식화됩니다. 비제약 조건 하의 최대 엔트로피 탐색은 비교적 잘 이해되어 왔으나, 실제 세계의 탐색은 안전성, 자원, 또는 모방 요구사항 등으로 인해 제약받는 경우가 많습니다. 이 제약 조건이 있는 설정은 특히 도전적이며, 엔트로피 최대화는 가법 구조 (additive structure) 를 갖지 않아 벨만 방정식 기반 (Bellman-equation-based) 방법들의 적용을 불가능하게 만들기 때문입니다. 또한, 확장 가능한 접근법은 정책 파라미터화 (policy parameterization) 를 필요로 하므로 목적 함수와 제약 조건 모두에서 비볼록성 (non-convexity) 을 유발합니다. 저의 지식에 따르면, 일반적인 정책 파라미터화 하에서 이 설정을 위한 유일한 모델 프리 (model-free) 정책 경사 (policy-gradient) 접근법은 Ying et al. (2025) 에 의해 제안된 것입니다. 불행히도, 그들의 보장은 약한 후회 (weak regret) 와 에르고딕 평균 (ergodic averages) 에 국한되어 있어, 최종 출력이 근최적 (near-optimal) 이고 거의 실현 가능 (nearly feasible) 인 단일 배포 가능한 정책임을 보장하지는 않습니다. 본 연구에서는 이 문제에 대해 다른 접근 방식을 취하며, 제곱 페널티 정규화 (quadratic-penalty regularization) 를 통해 일반적인 볼록 점유 측정 (convex occupancy-measure) 제약 조건을 강제하는 단일 루프 정책 공간 (single-loop policy-space) 방법인 Policy Gradient Penalty (PGP) 방법을 제안합니다. PGP 는 페널리된 목적 함수의 경사 추정치를 생성하는 가상의 보상 (pseudo-rewards) 을 구성한 다음, 고전적인 정책 경사 정리 (Policy Gradient Theorem) 를 활용합니다. 우리는 또한 페널티된 목적 함수의 규칙성 (regularity) 을 확립하여 PGP 의 수렴을 정당화하기 위해 필요한 매끄러움 (smoothness) 속성을 제공합니다. 숨겨진 볼록성 (hidden convexity) 과 강한 쌍대성 (strong duality) 을 활용하여 정책 유도 비볼록성에도 불구하고 $ε$-최적 제약 엔트로피 값을 달성하고 $ε$ 범위의 제약 위반을 갖는 전역 마지막 반복 수렴 (global last-iterate convergence) 보장을 확립합니다. 우리는 그리드 월드 벤치마크 (grid-world benchmark) 에 대한 애블레이션 (ablations) 을 통해 PGP 를 검증한 후, 두 가지 도전적인 연속 제어 작업 (continuous-control tasks) 에서 확장 가능성을 추가로 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0