확률적 신경망 동역학에 대한 불확실성 인식 예측 안전 필터
요약
본 논문은 확률적 앙상블(PE) 신경망 기반 모델 기반 강화학습(MBRL)에 적용할 수 있는 새로운 '불확실성 인식 예측 안전 필터(UPSi)'를 제안합니다. UPSi는 미래 결과를 도달 가능 집합으로 구성하고 명시적인 확신 제약을 도입하여, 기존 방법론의 한계였던 불확실성 정량화 문제를 해결하며 엄격한 안전 예측을 제공합니다. 이 필터는 표준 MBRL 프레임워크와 통합되어 높은 탐색 안전성을 확보하면서도 성능 저하 없이 일반적인 RL 환경에 적용 가능함을 입증했습니다.
핵심 포인트
- 기존의 예측 안전 필터(PSF)는 모델 의존성이나 불확실성 정량화 부족 등의 한계를 가집니다.
- 본 연구는 확률적 앙상블 신경망을 활용하여 고차원 동역학을 포착하는 MBRL 프레임워크를 기반으로 합니다.
- 제안된 UPSi(Uncertainty-Aware Predictive Safety Filter)는 미래 상태를 도달 가능 집합으로 정의하고 명시적인 확신 제약을 도입하여 안전성을 강화합니다.
- UPSi는 기존 신경망 PSF 대비 탐색 안전성에서 상당한 개선을 보였으며, 표준 MBRL 성능과 동등함을 유지했습니다.
예측 안전 필터 (PSFs) 는 심층 강화학습 (RL) 탐색 과정에서 제약 조건 만족을 강제하기 위해 모델 예측 제어 (MPC) 를 활용하지만, 기본 원리 기반 모델이나 가우시안 프로세스 (Gaussian processes) 에 의존하여 확장성과 광범위한 적용성을 제한합니다. 한편, 데이터 기반 최소 사전 지식으로 복잡한 고차원 동역학을 포착하기 위해 확률적 앙상블 (PE) 신경망을 정기적으로 사용하는 모델 기반 강화학습 (MBRL) 방법론이 존재합니다. 그러나 PE 를 PSF 에 통합하려는 기존 시도들은 엄격한 불확실성 정량화를欠缺하고 있습니다. 우리는 미래 결과를 도달 가능 집합 (reachable sets) 으로 구성하여 PE 동역학 모델을 사용하여 엄격한 안전 예측을 제공하는 예측 안전 필터인 불확실성 인식 예측 안전 필터 (UPSi, Uncertainty-Aware Predictive Safety Filter) 를 제안합니다. UPSi 는 모델 악용을 방지하는 명시적 확신 제약 (explicit certainty constraint) 을 도입하며, 일반적인 MBRL 프레임워크와 원활하게 통합됩니다. 우리는 Dyna 스타일 MBRL 내에서 표준 안전한 RL 벤치마크에서 UPSi 를 평가하여 기존 신경망 PSF 대비 탐색 안전성에서 상당한 개선을 보고하면서도 표준 MBRL 과 동등한 성능을 유지했습니다. UPSi 는 현대 MBRL 의 확장성과 일반성과 예측 안전 필터의 안전 보장 사이의 간극을 연결합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기