arXiv논문2026. 06. 03. 12:15

강화학습 (RL)을 위한 사용하기 쉬운 실딩 (Shielding) 기술

요약

강화학습(RL)의 안전한 탐색을 돕는 실딩(Shielding) 기술의 진입 장벽을 낮추기 위한 연구입니다. Tempest 기반의 실드 합성 도구를 Gymnasium API와 통합한 Python 라이브러리 tempestpy를 제안하여, 기존 RL 워크플로에서 쉽게 안전성을 확보할 수 있도록 합니다.

핵심 포인트

Gymnasium API와 통합된 tempestpy 라이브러리 개발
형식적 실드 합성을 RL 파이프라인에 엔드 투 엔드로 연결
확률적 멀티플레이어 게임을 위한 건전한 실드 알고리즘 확장
안전 연구를 위한 새로운 환경인 MiniGridSafe 소개

안전한 탐색 (Safe exploration)은 에이전트가 환경을 탐색하는 동안 해로운 결정을 내리는 것을 방지하는 것을 목표로 하는 강화학습 (Reinforcement Learning, RL)의 핵심 과제입니다. 안전한 탐색은 에이전트가 환경을 탐색하는 동안 해로운 결정을 내리는 것을 방지하는 것을 목표로 하는 강화학습 (RL)의 핵심 과제입니다. 실딩 (Shielding)은 행동의 안전성을 결정하기 위해 환경 모델 형태의 도메인 지식을 가정하는 기술 중 하나입니다. 실딩은 잘 확립되어 있음에도 불구하고, 형식적 실드 합성 (formal shield synthesis)과 표준 RL 프레임워크를 연결하는 접근 가능한 엔드 투 엔드 (end-to-end) 인프라의 부족으로 인해 RL에서의 채택이 제한적이었습니다. 실딩을 적용하려면 일반적으로 형식 방법론 (formal methods)에 대한 전문 지식과 상당한 엔지니어링 노력이 필요하며, 이로 인해 일반적인 RL 워크플로에서 벗어나 있게 됩니다. 우리는 우리의 실드 합성 도구인 Tempest를 안전한 RL을 위한 실용적인 백엔드로 확장함으로써 이 문제를 해결합니다. 우리의 핵심 기여는 Tempest 기반의 실드 합성을 Gymnasium API에 직접 통합하여, 기존 RL 파이프라인 내에서 실드를 합성하고 배포할 수 있도록 하는 Python 라이브러리인 tempestpy입니다. 이는 실딩의 진입 장벽을 낮추고 형식적인 안전 탐색 방법을 RL 실무자들이 사용할 수 있는 구성 요소로 변모시킵니다. 또한 우리는 형식적 안전 보장을 유지하면서 확률적 멀티플레이어 게임 (stochastic multiplayer games)에 대한 건전한 실드 (sound shields)를 계산할 수 있도록 Tempest의 알고리즘 지원을 확장합니다. 우리는 결과적인 워크플로를 엔드 투 엔드로 시연하고, 여러 환경에 걸쳐 실딩이 적용된 RL과 적용되지 않은 RL을 평가합니다. 모델링을 용이하게 하기 위해, 우리는 MiniGrid에 대한 심볼릭 모델 (symbolic models)을 제공하며, 실딩을 쉽게 접근 가능하고 실험적으로 투명하게 만들기 위해 설계된 놀이터 환경 모음인 MiniGridSafe를 소개합니다. MiniGridSafe는 확률적 전이 (probabilistic transitions)와 추가 에이전트를 특징으로 하는 안전 지향적 시나리오로 MiniGrid를 확장하여, 단순하고 직관적인 설정에서 까다로운 안전 측면을 연구할 수 있도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL)을 위한 사용하기 쉬운 실딩 (Shielding) 기술

요약

핵심 포인트

댓글