매끄러운 안전 구조화된 정책 구성을 통한 안전한 온라인 학습
요약
안전한 온라인 강화학습을 위해 성능과 안전 사이의 매끄러운 전환을 지원하는 AutoSafe 아키텍처를 제안합니다. 기존의 불연속적인 행동 개입 방식 대신, 안전 인지 정책을 통해 최적화 역학을 유지하며 제약 조건을 준수합니다.
핵심 포인트
- 안전 인지 정책 아키텍처인 AutoSafe 제안
- 성능 중심과 안전 보존 행동 간의 매끄러운 전이 가능
- 연속 제어 벤치마크 및 물리적 카트-폴 시스템 검증 완료
- 학습의 매끄러움을 유지하면서 강력한 안전 집행 실현
안전한 온라인 강화학습 (Reinforcement Learning)은 매끄러운 최적화 역학 (optimization dynamics)을 유지하면서도 정책이 안전 제약 조건 (safety constraints)을 준수할 것을 요구합니다. 기존의 접근 방식은 일반적으로 시스템 상호작용 및 학습에 불연속성 (discontinuities)을 초래하는 행동 개입 (action interventions)을 통한 엄격한 안전 집행 (strict safety enforcement)에 의존하거나, 매끄러운 학습은 보존하지만 제한된 안전 보장을 제공하는 소프트 안전 제약 (soft safety constraint) 공식화에 의존합니다. 우리는 구조화된 안전 모니터링 및 개입을 행동 생성 과정에 직접 통합하는 안전 인지 정책 아키텍처 (safety-aware policy architecture)인 AutoSafe를 제안합니다. 이러한 설계는 성능 중심 행동과 안전 보존 행동 사이의 매끄럽고 위험 의존적인 전이를 가능하게 하여, 연속적인 온라인 상호작용 및 학습 역학을 결과로 도출합니다. 다양한 연속 제어 (continuous-control) 벤치마크에 대한 실증적 결과는 학습의 매끄러움을 희생하지 않으면서도 강력한 안전 집행을 입증합니다. 나아가 우리는 물리적인 카트-폴 (cart-pole) 시스템에서 AutoSafe를 검증하여, 실제 환경에서의 안전한 온라인 학습을 위한 실질적인 효과를 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기