계층적 강화학습 (Hierarchical Reinforcement Learning)에서 안전성을 보장하기 위한 상상 (Imagine)
요약
계층적 강화학습(HRL) 환경에서 안전 제약 조건을 충족하며 장기 과업을 수행하기 위한 새로운 방법론을 제안합니다. 학습 가능한 세계 모델과 상위/하위 정책을 결합하여, 상상된 롤아웃을 통해 안전하지 않은 행동을 최소화하고 성공률을 높였습니다.
핵심 포인트
- 계층적 구조를 통한 장기 과업 내 안전성 확보
- 세계 모델 기반의 상상된 롤아웃(Imagined Rollouts) 활용
- 상위 정책의 안전한 서브골 생성 및 하위 정책의 제약 준수
- 기존 Safe RL 베이스라인 대비 높은 성공률과 제약 조건 준수 능력
본 연구는 에이전트가 누적 성능을 최대화하는 동시에 안전 제약 조건 (safety constraints)을 충족해야 하는 강화학습 (reinforcement learning)에서의 안전한 탐색 (safe exploration) 문제를 조사합니다. 이러한 도전 과제는 장기적 과업 (long-horizon tasks)에서 더욱 두드러지는데, 기존의 안전한 방법론들은 누적되는 추정 오차 (compounding estimation errors)와 제한된 탐색 능력으로 인해 근본적인 한계에 직면합니다. 이 문제를 해결하기 위해, 우리는 학습 가능한 세계 모델 (world model)과 두 개의 상호 보완적인 정책인 상위 수준 정책 (high-level policy) 및 하위 수준 정책 (low-level policy)을 결합하여 계층적 수준 모두에서 안전성을 증진하는 방법을 제안합니다. 상위 수준 정책은 탐색을 안전한 영역으로 유도하는 중간 서브골 (subgoals)을 생성하며, 하위 수준 정책은 이러한 서브골에 도달할 때 학습된 세계 모델 내에서 상상된 롤아웃 (imagined rollouts)을 사용하여 안전하지 않은 행동을 줄입니다. 제안된 방법은 고차원 행동 공간 (high-dimensional action spaces)을 가진 도전적인 장기 내비게이션 및 조작 (manipulation) 과업에서 평가되었으며, 기존의 안전한 강화학습 (Safe RL) 베이스라인들을 성공률과 강력한 실증적 제약 조건 충족 측면 모두에서 크게 능가하였습니다. 본 방법은 여러 시드 (seeds)에 걸쳐 규정된 안전 예산 (safety budget)을 일관되게 준수하는 반면, 이전의 접근 방식들은 이러한 복잡한 장기 시나리오를 효과적으로 해결하는 데 실패했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기