arXiv논문2026. 04. 29. 15:30

Safe-Support Q-Learning: 위험한 탐색 없이 학습하기

요약

본 연구는 위험한 탐색으로 인한 문제를 해결하기 위해 강화학습(RL)의 안전성을 높인 프레임워크를 제안합니다. 기존 방법들이 단순히 패널티로 위험을 완화하는 것과 달리, 이 접근법은 훈련 과정에서 아예 위험한 상태 방문 자체를 제거하는 엄격한 안전 요구사항을 채택했습니다. 이를 위해 '안전한 집합(safe set)' 기반의 행동 정책을 활용하고, Q 함수와 정책을 분리하여 KL 정규화 벨만 목표를 통해 안정적으로 학습시키는 2단계 프레임워크를 구축했습니다.

핵심 포인트

훈련 중 위험한 상태 방문 자체를 제거하는 엄격한 안전 요구사항을 채택함.
안전한 집합(safe set) 기반의 행동 정책을 활용하여 안정적인 학습 환경을 조성함.
Q 함수와 정책을 분리하고, KL 정규화 벨만 목표를 도입하여 안정성을 확보함.
제안된 2단계 프레임워크는 다양한 행동 공간과 정책 유형에 적용 가능한 통합 솔루션을 제공함.

강화학습 (RL) 훈련 중 안전성을 확보하는 것은, 위험한 탐색이 치명적인 결과를 초래할 수 있는 실제 응용 분야에서 매우 중요합니다. 대부분의 안전한 RL 방법은 제약이나 패널티를 통해 위험을 완화하지만, 여전히 훈련 과정에서 위험한 상태를 탐색하도록 허용합니다. 본 연구에서는 훈련 중 위험한 상태 방문을 제거하는 더 엄격한 안전 요구사항을 채택합니다. 이 목표를 달성하기 위해 우리는 안전한 집합 (safe set) 을 기반으로 하는 행동 정책 (behavior policy) 을 활용하는 Q-learning 기반의 안전한 RL 프레임워크를 제안합니다. 유도된 궤적이 안전한 집합 내에 머문다는 가정을 바탕으로, 이 정책은 근접 최적성 (near-optimality) 을 요구하지 않으면서도 안전한 영역 내에서 충분한 탐색을 가능하게 합니다. 우리는 Q 함수와 정책을 별도로 훈련하는 두 단계 프레임워크를 채택합니다. 구체적으로, Q 함수가 행동 정책에 가깝게 유지되도록 제한하는 KL 정규화 벨만 목표 (KL-regularized Bellman target) 를 도입합니다. 그 후, 훈련된 Q 값에서 유도된 정책을 도출하고 최적 정책을 근사하기 위한 매개변수화된 정책 추출 방법 (parametric policy extraction method) 을 제안합니다. 우리의 접근법은 다양한 행동 공간과 행동 정책 유형에 적용할 수 있는 통합된 프레임워크를 제공합니다. 실험 결과는 제안된 방법이 안정적인 학습과 잘 보정된 가치 추정치를 달성하며, 기존 베이스라인과 비교해도 동등하거나 더 나은 성능을 내면서 더 안전한 행동을 구현함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Safe-Support Q-Learning: 위험한 탐색 없이 학습하기

요약

핵심 포인트

댓글