본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 10:53

MDP에서 확률적 안전성을 보장하기 위한 쉴드

요약

본 논문은 자율 에이전트의 안전성을 확보하기 위한 '쉴딩(Shielding)' 기법을 다루며, 특히 확률적 안전성(probabilistic safety)을 보장하는 확장된 프레임워크를 제시합니다. 기존의 쉴딩이 절대적인 안전성을 목표로 했다면, 이 연구는 어느 정도 수용 가능한 확률로 위험이 발생하는 경우에 초점을 맞춥니다. 이를 위해 강력한 보장을 유지하면서도 자연스러운 쉴드를 제공하고, 오프라인 및 온라인 환경에서 작동하는 새로운 쉴드 구성 방식을 제안합니다.

핵심 포인트

  • 쉴딩(Shielding)은 자율 에이전트의 안전성을 확보하기 위한 모델 기반 기법이다.
  • 기존 쉴딩은 절대적인 안전성 보장을 목표로 했으나, 본 연구는 확률적 안전성(probabilistic safety)을 다룬다.
  • 제시된 프레임워크는 강력한 안전성 보장과 자연스러운 쉴드 제공 사이의 트레이드오프를 분석한다.
  • 연구는 약한 보장을 가진 자연스러운 쉴드와, 강력한 안전성 보장을 위한 오프라인/온라인 쉴드를 각각 소개한다.

쉴딩(Shielding)은 자율 에이전트의 안전성을 확보하기 위한 대표적인 모델 기반 기법입니다. 고전적인 쉴딩은 나쁜 일이 절대 일어나지 않도록 보장하는 것을 목표로 하며, 안전성과 최대 허용 범위에 대한 강력한 보장을 제공합니다. 하지만, 어느 정도 수용 가능한 확률로 나쁜 일이 발생하는 경우인 확률적 안전성(probabilistic safety)을 위한 쉴딩 시스템은 더 복잡하다는 것이 입증되었습니다. 본 논문에서는 고전적인 쉴드를 확률적 안전성으로 보수적으로 확장하는 형식적 프레임워크를 제시합니다. 이 프레임워크에서 우리는 (i) 안전성과 허용 범위에 대한 강력한 보장을 유지하는 것의 불가능성을 시연하고, (ii) 약한 보장과 함께 자연스러운 쉴드를 제공하며, (iii) 강력한 안전성 보장을 보장하는 오프라인 및 온라인 쉴드 구성을 소개합니다. 경험적 평가는 새로운 쉴드의 실질적인 이점뿐만 아니라 계산상의 타당성도 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0