arXiv논문2026. 05. 13. 03:30

안전한 오프라인 강화학습을 위한 견고한 확률적 차폐 (Robust Probabilistic Shielding for Safe Offline

요약

본 논문은 오프라인 강화학습(Offline RL)의 핵심 과제인 정책의 안전성 보장을 다룹니다. 기존의 안전 정책 개선(SPI) 기법을 확장하여, 주어진 데이터셋과 안전/위험 상태에 대한 지식만을 활용하는 '차폐된 SPI'를 제안합니다. 이 방법은 행동 공간을 증명 가능한 안전한 범위로 제한함으로써 높은 확률로 안전성을 보장하며, 실험적으로 차폐되지 않은 방식보다 성능 및 안정성 모두에서 우수함을 입증했습니다.

핵심 포인트

오프라인 강화학습(Offline RL)의 주요 목표는 고정된 데이터셋만으로 정책을 학습하는 것입니다.
안전성을 보장하기 위해, 기존의 안전 정책 개선(SPI) 기법에 '차폐(Shielding)' 개념을 통합했습니다.
제안된 차폐된 SPI는 사용 가능한 데이터와 안전/위험 상태 지식만을 사용하여 행동 공간을 제한함으로써 높은 확률로 안전한 정책을 보장합니다.
실험 결과, 제안된 방법은 특히 데이터가 부족한 영역(low-data regime)에서 평균 및 최악 사례 성능 모두를 향상시켰습니다.

오프라인 강화학습 (RL)에서 우리는 환경과의 상호작용 없이 고정된 데이터셋으로부터 정책을 학습합니다. 주요 과제는 결과로 얻은 정책의 (1) 성능과 (2) 안전성에 대한 보장을 제공하는 것입니다. 안전 정책 개선 (SPI)이라는 기법은 성능 보장을 제공합니다: 높은 확률로, 새로운 정책이 주어진 기준선 정책보다 우수하며, 이 기준선 정책은 안전하다고 가정됩니다. 직교적으로, 안전 RL의 맥락에서 차폐(shield)는 주어진 안전 관련 모델에 대해 증명 가능한 안전한 행동으로 행동 공간을 제한함으로써 안전성 보장을 제공합니다. 우리는 이러한 패러다임을 오프라인 RL로 확장하여 통합하며, 사용 가능한 데이터셋과 안전 및 위험 상태에 대한 지식에만 의존합니다. 그런 다음, 정책 개선 단계를 차폐하여 높은 확률로 안전한 정책을 보장합니다. 실험 결과는 차폐된 SPI가 차폐되지 않은 대응물보다 성능이 우수함을 입증하며, 특히 저데이터 영역에서 평균 및 최악 사례 성능 모두를 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

안전한 오프라인 강화학습을 위한 견고한 확률적 차폐 (Robust Probabilistic Shielding for Safe Offline

요약

핵심 포인트

댓글