arXiv논문2026. 05. 20. 11:56

샘플링 기반 안전 강화학습 (Sampling-Based Safe Reinforcement Learning)

요약

본 논문은 강화학습 에이전트의 실제 환경 배포를 가로막는 안전한 탐색 문제를 해결하기 위해 샘플링 기반 안전 강화학습(SBSRL) 알고리즘을 제안합니다. SBSRL은 유한한 동역학 샘플 집합에 대해 제약 조건을 강제함으로써 불확실한 환경에서도 실질적인 안전 보장을 제공하며, 인식론적 불확실성을 제약하는 전략을 통해 별도의 탐색 보너스 없이도 효율적인 탐색을 가능하게 합니다.

핵심 포인트

유한한 동역학 샘플 집합 전체에 제약 조건을 적용하여 학습 과정 전반의 안전성 유지
인식론적 불확실성(epistemic uncertainty) 제약을 통한 명시적 탐색 보너스 제거
정칙성 조건 하에서 안전성 보장 및 유한 시간 샘플 복잡도 상한 도출
시뮬레이션 및 실제 로봇 하드웨어에서의 실험을 통해 실용성과 확장성 검증

안전한 탐색 (Safe exploration)은 강화학습 (RL) 분야에서 여전히 근본적인 과제로 남아 있으며, 이는 RL 에이전트의 실제 세계 배포를 제한하는 요소입니다. 본 논문에서는 유한한 동역학 샘플 (dynamics samples) 집합 전체에 걸쳐 제약 조건을 공동으로 강제함으로써 학습 과정 전반에 걸쳐 안전성을 유지하는 모델 기반 RL 알고리즘인 샘플링 기반 안전 강화학습 (Sampling-Based Safe Reinforcement Learning, SBSRL)을 제안합니다. 이러한 정식화 (formulation)는 불확실한 동역학에 대한 다루기 힘든 최악의 경우 최적화 (worst-case optimization)를 근사하며, 연속적인 도메인 (continuous domains)에서 실질적인 안전 보장을 가능하게 합니다. 나아가, 우리는 인식론적 불확실성 (epistemic uncertainty)을 제약하는 것에 기반한 탐색 전략을 도입하여, 명시적인 탐색 보너스 (exploration bonuses)의 필요성을 제거합니다. 정칙성 조건 (regularity conditions) 하에서, 우리는 학습 전반에 걸친 안전성에 대한 높은 확률의 보장 (high-probability guarantees)과 근사 최적 정책 (near-optimal policy)을 회복하기 위한 유한 시간 샘플 복잡도 (finite-time sample complexity) 상한을 도출합니다. 실험적으로 SBSRL은 시뮬레이션과 실제 로봇 하드웨어 모두에서 안전하고 효율적인 탐색을 달성하며, 고차원 연속 제어 문제로 확장 가능한 실용적인 딥 앙상블 (deep-ensemble) 구현으로 용이하게 확장됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

샘플링 기반 안전 강화학습 (Sampling-Based Safe Reinforcement Learning)

요약

핵심 포인트

댓글