arXiv논문2026. 06. 09. 11:53

Safe-RULE: 안전한 강화학습 언러닝 (Safe Reinforcement UnLEarning)

요약

오프라인 Safe RL의 데이터 오염 공격 문제를 해결하기 위한 새로운 학습 패러다임인 Safe-RULE을 제안합니다. 재학습 없이 오염된 데이터의 영향을 제거하며, 작업 성능과 안전 제약 조건을 동시에 고려합니다.

핵심 포인트

데이터 오염 공격으로부터 오프라인 Safe RL 보호
재학습 없이 오염된 데이터의 영향 제거 가능
작업 성능과 안전 제약 조건의 명시적 고려
벤치마크 실험을 통한 안전 성능 향상 입증

오프라인 안전 강화학습 (Offline Safe Reinforcement Learning, Safe RL)은 온라인 상호작용 없이 정책 학습 (Policy Learning)을 가능하게 하여, 로보틱스 시스템 (Robotics Systems)과 같이 안전이 중요한 시스템에 적합합니다. 그러나 정적 데이터셋 (Static Datasets)에 의존하는 특성 때문에, 오프라인 Safe RL은 공격자가 안전성을 해치고 불안전한 정책 행동을 유도하는 악성 샘플을 주입하는 데이터 오염 공격 (Data Poisoning Attacks)에 노출됩니다. 본 연구에서는 처음부터 다시 학습하거나 원래의 훈련 환경에 접근할 필요 없이 오염된 데이터의 영향을 제거하기 위한 방어 프레임워크로 사용되는 새로운 학습 패러다임인 안전 강화학습 언러닝 (Safe Reinforcement UnLEarning, Safe-RULE)을 제안합니다. 나아가, 언러닝 (Unlearning) 과정 동안 작업 성능 (Task Performance)과 안전 제약 조건 (Safety Constraints)을 모두 명시적으로 고려함으로써 강화학습 언러닝을 오프라인 Safe RL로 확장합니다. 벤치마크 Safe RL 작업 전반에 걸친 실험을 통해, 우리의 접근 방식이 데이터 오염 공격에 대해 안전 성능을 효과적으로 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Safe-RULE: 안전한 강화학습 언러닝 (Safe Reinforcement UnLEarning)

요약

핵심 포인트

댓글