Safe-RULE: 안전한 강화학습 언러닝 (Safe Reinforcement UnLEarning)
요약
오프라인 Safe RL의 데이터 오염 공격 문제를 해결하기 위한 새로운 학습 패러다임인 Safe-RULE을 제안합니다. 재학습 없이 오염된 데이터의 영향을 제거하며, 작업 성능과 안전 제약 조건을 동시에 고려합니다.
핵심 포인트
- 데이터 오염 공격으로부터 오프라인 Safe RL 보호
- 재학습 없이 오염된 데이터의 영향 제거 가능
- 작업 성능과 안전 제약 조건의 명시적 고려
- 벤치마크 실험을 통한 안전 성능 향상 입증
오프라인 안전 강화학습 (Offline Safe Reinforcement Learning, Safe RL)은 온라인 상호작용 없이 정책 학습 (Policy Learning)을 가능하게 하여, 로보틱스 시스템 (Robotics Systems)과 같이 안전이 중요한 시스템에 적합합니다. 그러나 정적 데이터셋 (Static Datasets)에 의존하는 특성 때문에, 오프라인 Safe RL은 공격자가 안전성을 해치고 불안전한 정책 행동을 유도하는 악성 샘플을 주입하는 데이터 오염 공격 (Data Poisoning Attacks)에 노출됩니다. 본 연구에서는 처음부터 다시 학습하거나 원래의 훈련 환경에 접근할 필요 없이 오염된 데이터의 영향을 제거하기 위한 방어 프레임워크로 사용되는 새로운 학습 패러다임인 안전 강화학습 언러닝 (Safe Reinforcement UnLEarning, Safe-RULE)을 제안합니다. 나아가, 언러닝 (Unlearning) 과정 동안 작업 성능 (Task Performance)과 안전 제약 조건 (Safety Constraints)을 모두 명시적으로 고려함으로써 강화학습 언러닝을 오프라인 Safe RL로 확장합니다. 벤치마크 Safe RL 작업 전반에 걸친 실험을 통해, 우리의 접근 방식이 데이터 오염 공격에 대해 안전 성능을 효과적으로 향상시킨다는 것을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기