arXiv논문2026. 06. 18. 11:47

AI 샌드박스: 위협 모델, 분류 체계 및 측정 프레임워크

요약

AI 시스템의 안전한 테스트를 위한 AI 샌드박스의 위협 모델, 분류 체계 및 측정 프레임워크를 제안하는 논문입니다. 디지털 AI부터 사이버-물리 시스템까지 아우르는 제어된 환경에서의 검증 및 보증 방법을 다룹니다.

핵심 포인트

AI 샌드박스의 구성 요소인 격리, 시뮬레이션, 감독 및 증거 포착 정의
사이버-물리 시스템을 포함한 AI 샌드박스의 위협 모델 및 분류 체계 개발
충실도, 제어 가능성, 관찰 가능성 등을 포함한 측정 프레임워크 도입
안전, 보안 및 규제 보증을 위한 증거 지원 체계 명확화

AI 시스템은 격리(isolation), 시뮬레이션(simulation), 계측(instrumentation), 감독(supervision) 및 증거 포착(evidence capture)이 결합된 제한된 환경에서 점점 더 많이 평가되고 있습니다. 물리적 AI, AIoT 및 사이버-물리 시스템(cyber-physical systems)의 경우, 이러한 변화는 단순한 용어의 문제가 아닙니다. 테스트 대상 시스템은 물리적 프로세스, 네트워크 장치 및 인간 운영자를 통해 감지하고, 결정하고, 작동하고, 통신하며, 실패할 수 있습니다. 본 논문은 디지털 AI, 체화된 자율성(embodied autonomy) 및 사이버-물리 배포 전반에 걸쳐 테스트, 평가, 검증(verification) 및 확인(validation)을 위한 제어된 환경으로서의 AI 샌드박스(AI sandboxes)에 대한 보증 중심의 설명을 개발합니다. 우리는 샌드박스 경계(sandbox boundary)와 차원별 증거를 제한된 배포 주장(bounded deployment claim)으로 구성하기 위한 최약 연결 규칙(weakest-link rule)을 공식화합니다. 또한 주요 샌드박스 원형(archetypes)을 분리하고, 보증 장치 자체에 대한 공격을 포함하는 사이버-물리 위협 모델을 정의하며, 충실도(fidelity), 제어 가능성(controllability), 관찰 가능성(observability), 격리(containment), 재현성(reproducibility) 및 거버넌스 산출물(governance artifacts)을 아우르는 측정 프레임워크를 도입하여 실제 샌드박스의 세 가지 사례 연구를 통해 구체화합니다. 결과적으로 도출된 위협 모델, 분류 체계 및 측정 프레임워크는 샌드박스가 무엇을 유효하게 테스트할 수 있는지, 어떤 위험을 격리할 수 있는지, 그리고 안전(safety), 보안(security) 및 규제 보증(regulatory assurance)을 위해 어떤 형태의 증거를 지원할 수 있는지를 명확히 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 샌드박스: 위협 모델, 분류 체계 및 측정 프레임워크

요약

핵심 포인트

댓글