arXiv논문2026. 06. 15. 12:27

증명 가능한 안전성을 갖추면서도 확장 가능한 강화학습 (Provably Safe, Yet Scalable Reinforcement

요약

기존 안전 강화학습의 확장성 문제를 해결하기 위해 설계된 PS2-RL 프레임워크를 소개합니다. 암시적 제어 불변 집합을 생성하는 2단계 아키텍처를 통해 증명 가능한 안전성을 유지하면서도 높은 성능과 확장성을 제공합니다.

핵심 포인트

기존 방식의 낮은 확장성과 보수적 행동 문제 해결
백업 정책을 활용한 온라인 암시적 제어 불변 집합 생성
미분 가능한 투영 레이어를 통한 엔드투엔드 학습 지원
기존 RL 알고리즘에 플러그인 가능한 범용적 구조
로봇 제어 작업에서의 이론적 보장 및 성능 검증

안전 강화학습 (Safe Reinforcement Learning, RL)은 제약 조건을 만족하면서 보상을 최적화하는 정책을 학습하는 것을 목표로 합니다. 지배적인 접근 방식들은 소프트 제약 정책 최적화 (soft-constrained policy optimization)에 의존하며, 이는 경험적인 성공을 거두었으나 학습된 정책에 대한 공식적인 안전 보장 (formal safety guarantees)을 제공하지는 못합니다. 이와 대조적으로, 엄격한 보장을 제공하는 방법들은 일반적으로 명시적인 인증 함수 (explicit certificate functions)에 의존하는데, 이 함수의 구축은 제어 불변 집합 (control-invariant sets)의 직접적인 합성 및 검증을 필요로 하며, 이 과정은 상태 차원 (state dimension)이 커질수록 확장성이 떨어지고 종종 지나치게 보수적인 행동을 유발합니다.

본 논문에서는 기존 방법론의 주요 병목 현상을 극복하기 위해 설계된, 확장 가능한 방식으로 증명 가능한 안전 정책을 학습하는 새로운 2단계 아키텍처인 PS2-RL (Provably Safe, yet Scalable RL) 프레임워크를 제시합니다. PS2-RL은 불변 집합을 명시적으로 계산하는 대신, 학습된 백업 정책 (backup policy)을 활용하여 시스템 역학 (system dynamics)을 순방향 적분 (forward-integrate)함으로써 온라인으로 암시적 제어 불변 집합 (implicit control-invariant set)을 생성합니다. 첫 번째 단계에서는 불변 집합 구축을 위한 최적의 백업 정책을 특징짓는 우리가 제안하는 안전 도착 가치 함수 (safe-arrival value function)를 사용하여 백업 정책을 학습합니다. 두 번째 단계에서는 학습된 백업 정책에 의해 유도된 안전 보장을 엄격하게 강제하는 미분 가능한 투영 레이어 (differentiable projection layer)를 통해 RL 정책을 엔드투엔드 (end-to-end)로 학습합니다. 첫 번째 단계에서 암시적 제어 불변 집합의 부피를 최대화함으로써, 두 번째 단계에서 생성된 PS2 정책은 증명 가능한 안전성을 유지하면서도 성능이 뛰어나고 확장 가능합니다. 결정적으로, PS2-RL은 기반이 되는 RL 알고리즘에 어떠한 제한도 가하지 않으며 기존의 모든 학습 파이프라인에 플러그인 (plugged in)될 수 있습니다. 우리는 제안된 프레임워크에 대한 이론적 보장을 확립하고, 기존의 증명 가능한 안전 RL 방법들이 어려움을 겪거나 비실용적이게 되는 상태 차원 최대 10의 로봇 제어 작업에서 이를 평가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

증명 가능한 안전성을 갖추면서도 확장 가능한 강화학습 (Provably Safe, Yet Scalable Reinforcement

요약

핵심 포인트

댓글