arXiv논문2026. 04. 29. 15:20

Dyna 스타일 안전 증강 강화학습: 불확실성 앞에서도 안전하게 머무르기

요약

본 논문은 강화학습(RL)의 주요 과제 중 하나인 안전성 문제를 해결하기 위해 'Dyna 스타일 안전 증강 강화학습(Dyna-SAuR)'이라는 새로운 알고리즘을 제안합니다. Dyna-SAuR는 최소한의 도메인 지식만으로 학습된 불확실성 인식 역학 모델을 활용하여, 실패와 높은 불확실성을 피하는 확장 가능한 안전 필터와 제어 정책을 동시에 학습합니다. 이 방법은 CartPole 및 MuJoCo Walker 등의 환경에서 기존 최첨단 방법에 비해 실패율을 현저히 낮추는 효과를 입증했습니다.

핵심 포인트

강화학습(RL)의 핵심 과제인 안전성 문제를 해결하기 위해 새로운 접근 방식을 제시함.
Dyna-SAuR은 불확실성을 인식하는 역학 모델을 사용하여 안전 필터와 제어 정책을 동시에 학습합니다.
이 알고리즘은 실패가 예상되거나 불확실성이 높은 상태 영역을 능동적으로 회피하도록 설계되었습니다.
CartPole 및 MuJoCo Walker 환경에서 기존 방법 대비 월등히 낮은 실패율을 달성했습니다.

안전 문제는 특히 학습 도중에는 여전히 강화학습 (RL) 의 미해결 과제입니다. 안전한 탐색을 해결하기 위해 안전 필터가 유망하지만, 일반적으로 알려진 역학 (dynamics) 을 가진 고차원 시스템에는 적합하지 않습니다. 우리는 최소한의 도메인 지식을 요구하면서도 학습된 불확실성 인식 역학 모델 (uncertainty-aware dynamics model) 을 사용하여 확장 가능한 안전 필터와 제어 정책을 모두 학습하는 새로운 알고리즘인 Dyna 스타일 안전 증강 강화학습 (Dyna-SAuR) 을 제안합니다. 이 필터는 실패와 높은 불확실성 영역을 피합니다. 따라서 더 나은 모델은 안전하고 확실한 상태의 집합을 확장하여 필터의 보수성을 줄입니다. 우리는 목표 도달 CartPole 및 MuJoCo Walker 에서 Dyna-SAuR 의 효과를 제시하며, 최첨단 방법에 비해 실패를 2 차원 (orders of magnitude) 만큼 줄였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Dyna 스타일 안전 증강 강화학습: 불확실성 앞에서도 안전하게 머무르기

요약

핵심 포인트

댓글