arXiv중요논문2026. 04. 23. 23:51

불완전 인식 환경을 위한 POMDP 안전장치 설계

요약

자율 시스템이 학습된 인식을 기반으로 할 때, 센서 오분류는 위험한 결정을 초래할 수 있습니다. 본 연구는 이러한 상황에 대비하여 '안전장치(shield)'를 설계합니다. 시스템 동역학은 알려져 있지만 인식 불확실성은 제한된 레이블 데이터로부터 추정해야 하는 일반적인 경우를 다룹니다. 이를 위해, 인식 확률의 신뢰 구간을 계산하고 시스템을 이산 상태 및 행동을 가진 유한 간격 부분 관측 마르코프 결정 과정(Interval POMDP)으로 모델링합니다. 연구진은 지금까지의 관찰과 일치하는 보수적인 믿음 집합을 계산하는 알고리즘을 제안

핵심 포인트

제한된 데이터로 추정되는 인식 불확실성을 간격 기반으로 모델링하여 안전성을 확보했습니다.
새로운 접근 방식은 실시간 '안전장치(shield)'를 구축하며, 유한 시간 범위에 대한 보장을 제공합니다.
이 안전장치는 학습된 구간 내에서 실제 인식 불확실성이 존재할 경우, 모든 허용 행동이 명시된 최소 안전 기준을 만족함을 보장합니다.
다양한 사례 연구 실험 결과, 제안된 안전장치 접근 방식은 기존 최신 기법보다 시스템의 안전성을 향상시켰습니다.

자율 시스템이 학습된 인식을 사용할 때 센서 오분류로 인해 위험할 수 있습니다. 본 논문은 이러한 상황에 대비하는 '안전장치(shielding)'를 연구합니다.

연구는 시스템 동역학은 알려져 있지만, 인식의 불확실성을 제한된 레이블 데이터에서 추정해야 하는 일반적인 경우에 초점을 맞춥니다. 이를 위해 인식 확률에 대한 신뢰 구간을 계산하고, 시스템을 이산 상태 및 행동을 가진 유한 간격 부분 관측 마르코프 결정 과정(Interval POMDP)으로 모델링합니다.

제안된 알고리즘은 지금까지의 관찰과 일치하는 보수적인 믿음 집합(conservative set of beliefs)을 계산할 수 있게 합니다. 이를 통해 실시간 안전장치를 구축하며, 유한 시간 범위에 대한 강력한 안전성 보장을 제공합니다. 즉, 학습 데이터 내에서 실제 인식 불확실성이 구간 안에 있다면, 안전장치가 허용한 모든 행동은 최소 안전 기준을 만족함을 의미합니다.

네 가지 사례 연구 실험 결과, 본 안전장치 접근 방식(및 그 변형)이 기존 최신 기법보다 시스템의 전반적인 안전성을 높이는 것으로 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

불완전 인식 환경을 위한 POMDP 안전장치 설계

요약

핵심 포인트

댓글