본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:47

AI 샌드박스: 위협 모델, 분류 체계 및 측정 프레임워크

요약

AI 시스템의 안전한 테스트를 위한 AI 샌드박스의 위협 모델, 분류 체계 및 측정 프레임워크를 제안하는 논문입니다. 디지털 AI부터 사이버-물리 시스템까지 아우르는 제어된 환경에서의 검증 및 보증 방법을 다룹니다.

핵심 포인트

  • AI 샌드박스의 구성 요소인 격리, 시뮬레이션, 감독 및 증거 포착 정의
  • 사이버-물리 시스템을 포함한 AI 샌드박스의 위협 모델 및 분류 체계 개발
  • 충실도, 제어 가능성, 관찰 가능성 등을 포함한 측정 프레임워크 도입
  • 안전, 보안 및 규제 보증을 위한 증거 지원 체계 명확화

AI 시스템은 격리(isolation), 시뮬레이션(simulation), 계측(instrumentation), 감독(supervision) 및 증거 포착(evidence capture)이 결합된 제한된 환경에서 점점 더 많이 평가되고 있습니다. 물리적 AI, AIoT 및 사이버-물리 시스템(cyber-physical systems)의 경우, 이러한 변화는 단순한 용어의 문제가 아닙니다. 테스트 대상 시스템은 물리적 프로세스, 네트워크 장치 및 인간 운영자를 통해 감지하고, 결정하고, 작동하고, 통신하며, 실패할 수 있습니다. 본 논문은 디지털 AI, 체화된 자율성(embodied autonomy) 및 사이버-물리 배포 전반에 걸쳐 테스트, 평가, 검증(verification) 및 확인(validation)을 위한 제어된 환경으로서의 AI 샌드박스(AI sandboxes)에 대한 보증 중심의 설명을 개발합니다. 우리는 샌드박스 경계(sandbox boundary)와 차원별 증거를 제한된 배포 주장(bounded deployment claim)으로 구성하기 위한 최약 연결 규칙(weakest-link rule)을 공식화합니다. 또한 주요 샌드박스 원형(archetypes)을 분리하고, 보증 장치 자체에 대한 공격을 포함하는 사이버-물리 위협 모델을 정의하며, 충실도(fidelity), 제어 가능성(controllability), 관찰 가능성(observability), 격리(containment), 재현성(reproducibility) 및 거버넌스 산출물(governance artifacts)을 아우르는 측정 프레임워크를 도입하여 실제 샌드박스의 세 가지 사례 연구를 통해 구체화합니다. 결과적으로 도출된 위협 모델, 분류 체계 및 측정 프레임워크는 샌드박스가 무엇을 유효하게 테스트할 수 있는지, 어떤 위험을 격리할 수 있는지, 그리고 안전(safety), 보안(security) 및 규제 보증(regulatory assurance)을 위해 어떤 형태의 증거를 지원할 수 있는지를 명확히 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0