SecureClaw: LLM 에이전트의 제어권 탈환
요약
LLM 에이전트의 보안 취약점인 승인되지 않은 외부 동작과 민감 정보 노출을 해결하기 위한 이중 경계 아키텍처 SecureClaw를 제안합니다. 권한 부여와 평문 격리를 분리하여 에이전트의 유용성을 유지하면서도 공격 성공률을 획기적으로 낮췄습니다.
핵심 포인트
- 이중 경계 아키텍처를 통한 권한 부여 및 평문 격리 구현
- 민감 데이터를 불투명한 핸들로 교체하여 런타임 노출 방지
- PREVIEW-COMMIT 프로토콜로 승인된 정형 요청만 실행 허용
- AgentDojo 및 ASB 벤치마크에서 매우 낮은 공격 성공률 달성
도구 사용 대규모 언어 모델 (LLM) 에이전트는 두 가지 뚜렷한 보안 실패에 직면합니다: 승인되지 않은 외부 동작(unauthorized external actions)과 최종 출력 검사가 개입하기 전 런타임(runtime) 내부에서 민감한 평문(plaintext)이 노출되는 문제입니다. 기존의 방어 기제들은 대개 플래너/런타임(planner/runtime) 또는 액션 싱크(action sink) 중 하나의 경계만을 보호하며, 따라서 그 자체만으로는 두 표면을 모두 보호하지 못합니다. 우리는 권한 부여(authorization)를 이펙트 싱크(effect sink)에 배치하고, 평문 격리(plaintext confinement)를 읽기 경계(read boundary)에 배치하는 이중 경계 아키텍처인 SecureClaw를 제시합니다. 민감한 읽기 작업은 원시 값(raw values)을 불투명한 핸들(opaque handles)로 교체하는 신뢰할 수 있는 게이트웨이를 통과하며, 평가된 배포 환경에서는 명시적인 재분류 인터페이스(declassification interface)로서 제한된 요약(bounded summaries)을 사용합니다. 외부 상태를 변경하는 쓰기 작업은 PREVIEW$
ightarrow$COMMIT 프로토콜을 따르며, 이 프로토콜에서는 오직 신뢰할 수 있는 실행자(trusted executor)만이 정책에 의해 승인된 정확한 정형 요청(canonical request)을 커밋(commit)할 수 있습니다. 런타임은 여전히 요약 및 기호 참조(symbolic references)를 통해 계획을 세울 수 있지만, 비밀 정보(secrets)를 직접 역참조(dereference)하거나 부수 효과(side effects)를 수행할 수는 없습니다. AgentDojo, AgentLeak, 그리고 Agent Security Bench (ASB) 전반에 걸쳐, SecureClaw는 공통 하네스(common harness)에서 평가된 유일한 방어 기제로, 사용 가능한 작업 유용성(task utility)을 유지하는 동시에 ASB에서 0%의 공격 성공률 (ASR), AgentDojo에서 0.64%의 ASR, 그리고 최종 출력 및 내부 전달 유출을 측정하는 AgentLeak의 공격받은 패리티 레인(attacked parity lane)에서 3.23%의 전체 유출을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기