아마도 대략적으로 안전한 보장을 갖는 위험 인식 강화학습을 위한 시나리오 생성
요약
심층 강화학습 에이전트의 안전성을 보장하기 위해 VAE를 활용한 위험 인식 시나리오 생성 연구를 소개합니다. 확률적 장벽 증명서를 구축하여 안전 영역의 상한과 하한을 정밀하게 추정하고, 비강건 영역을 샘플링하여 안전 보장의 신뢰도를 높이는 이중 최적화 방법을 제안합니다.
핵심 포인트
- VAE를 이용한 상태 공간 분포 근사 및 잠재 특성 활용
- 확률적 장벽 증명서를 통한 안전 행동 영역 최적화
- 이중 최적화 문제를 통한 상한 및 하한 경계값 정밀화
- 비강건 영역 샘플링을 통한 안전성 보장 강화
안전성을 보장하는 것은 실제 환경에서 강화학습 (RL) 에이전트를 배포하는 데 있어 매우 중요하며, 특히 심층 강화학습 (Deep RL)을 사용하여 학습된 정책 (Policy)은 미지의 상태나 안전하지 않은 행동을 초래할 수 있는 전이 섭동 (Transition perturbations)에 취약할 수 있기 때문입니다. 정책 검증 (Policy verification)의 한 가지 방법은 안전 제약 조건 (Safety constraints)에 따라 정책 궤적 (Policy trajectories)을 샘플링하여 확률적 장벽 증명서 (Probabilistic barrier-certificates)를 구축함으로써, 알려진 안전한 행동과 미지의 행동을 구분하는 것입니다. 만약 정책이 에이전트를 탐색이 불충분한 상태에 놓이게 하는 전이 불확실성 (Transition uncertainty) 또는 섭동 (Perturbation)에 취약하다면, 이러한 제약 조건의 위반 확률에 대한 타이트한 상한 및 하한 (Upper and lower bounds)을 얻는 것이 어려울 수 있습니다. 이를 해결하기 위해, 본 연구에서는 변분 오토인코더 (VAE)를 사용하여 마주친 상태 공간 (State-space)의 분포를 근사하고, 상태의 잠재적 특성 (Latent characteristics)을 사용하여 상한 및 하한 장벽 증명서를 구축함으로써 높은 신뢰도로 알려진 안전한 행동 영역을 최적화합니다. 우리는 이를 이중 최적화 (Dual optimization) 문제로 구성하며, 여기서 하한 장벽 증명서는 상한 장벽 증명서보다 안전 영역에 대해 더 보수적인 추정치를 제공합니다. 학습 과정에서 두 증명서의 차집합, 즉 비강건 영역 (Non-robust region)에 해당하는 상태를 샘플링함으로써 상한과 하한을 더욱 타이트하게 만들어 안전성에 대한 더 정밀한 확률적 보장을 제공할 수 있습니다. 본 연구 내에서 우리는 부여된 보장 내용을 설명하고 실험적으로 우리의 경계값이 얼마나 타이트한지를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기