arXiv논문2026. 06. 25. 11:43

해고 불가능한 안전 커널 (The Unfireable Safety Kernel): AI 에이전트 및 기타 탈출 가능한 AI 시스템을 위한 실행

요약

AI 에이전트가 시스템 제어권을 탈취하는 '탈출 가능성' 문제를 해결하기 위해, 런타임 내부가 아닌 외부 아키텍처 수준에서 제어하는 'Unfireable Safety Kernel'을 제안합니다. Rust 기반의 이 커널은 프로세스 분리와 페일 클로즈 속성을 통해 에이전트의 권한 남용을 원천 차단합니다.

핵심 포인트

기존 시스템 프롬프트나 가드레일의 취약점인 '탈출 가능한 AI' 문제 지적
프로세스 분리 및 외부화된 서명 증거 등 4가지 핵심 아키텍처 속성 정의
Rust 기반 참조 구현체를 통해 실행 시점(execution-time) AI 정렬 구현
SMT 정리 증명 및 모델 검사를 통한 페일 클로즈 불변성 검증
자기 수정 공격 시나리오에서 704회의 탈출 시도를 성공적으로 차단

AI 에이전트(AI agents)는 도구, API 및 기타 인프라에 대한 접근 권한을 부여받으므로, 해당 시스템 내에서 능동적인 주체(active principals)가 됩니다. 지배적인 접근 방식은 시스템 프롬프트(system prompts), 출력 필터(output filters), 가드레일 라이브러리(guardrail libraries)와 같이 에이전트 자체의 런타임(runtime) 내부에 제어 장치를 배치하는 것입니다. 에이전트의 주소 공간(address space) 내에 있는 모든 제어 장치는 그에 영향을 미치는 입력값에 의해 도달 가능합니다. 이는 자신의 런타임에 충분한 접근 권한을 가진 모든 AI 시스템으로 일반화될 수 있으며, 우리는 이러한 부류를 탈출 가능한 AI 시스템(escapable AI systems)이라고 명명합니다. 우리는 협력적 요청이 아닌 아키텍처적 제어를 위해 권한 부여 메커니즘이 반드시 충족해야 하는 네 가지 속성을 식별했습니다: 프로세스 분리(process separation), 구조적으로 유일한 경로에서의 실행 전 강제(pre-action enforcement on a structurally only path), 요청 및 시스템 수준 모두에서의 페일 클로즈(fail-closed), 그리고 제어된 시스템의 신뢰 경계(trust boundary) 외부에서 검증 가능한 외부화된 서명된 증거(externalized signed evidence)입니다. 우리는 이 계층을 훈련 시점 정렬(training-time alignment; RLHF, Constitutional AI) 및 추론 시점 정렬(inference-time alignment)을 보완하는 실행 시점 AI 정렬(execution-time AI alignment)로 정의합니다. 우리는 이 네 가지를 모두 구현한 Rust 기반의 참조 구현체인 Unfireable Safety Kernel을 제시합니다. 이 커널의 페일 클로즈 불변성(fail-closed invariant)은 두 가지 수준에서 기계적으로 검증됩니다: SMT 정리 증명(Z3) 및 프로덕션 결정 함수에 대한 철저한 유한 모델 검사(exhaustive bounded-model-checking) 증명(Kani, 4/4 harnesses). Python에서 Rust로의 마이그레이션은 바이트 동일성(byte-equivalence)을 기준으로 게이트를 통과했습니다(1000/1000 fixtures; 17/17 adversarial classes). 우리는 실제 탈출 가능한 AI 시스템이자 결정론적이고 자기 개선적인 월드 모델(world model)을 제어하는 이 커널을, 시스템의 실제 자기 수정 접점(self-modification seam)을 구동하는 탈출 시도 공격자(escape-seeking adversary)를 대상으로 평가했습니다: 1,000번의 자기 수정 과정 동안, 안전에 필수적인 핵심(safety-critical core)에 대한 704번의 모든 시도는 탈출 없이 거부되었습니다. 운영자 킬 스위치(operator kill switch) 하에 수행된 추가 300번의 시도 또한 거부되었습니다. 6,240회의 별도 권한 부여 라운드 트립(authorization round-trips) 캠페인에서도 성공적인 우회는 없었습니다. 에이전트 제어 평면(agent control plane)을 주장하는 3개의 현대적 시스템과 비교했을 때, 해당 시스템들에서는 에이전트가 제어를 호출하지만, 본 커널에서는 에이전트에게 그러한 선택권이 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

해고 불가능한 안전 커널 (The Unfireable Safety Kernel): AI 에이전트 및 기타 탈출 가능한 AI 시스템을 위한 실행

요약

핵심 포인트

댓글