SecureClaw: LLM 에이전트의 제어권 탈환

도구 사용 대규모 언어 모델 (LLM) 에이전트는 두 가지 뚜렷한 보안 실패에 직면합니다: 승인되지 않은 외부 동작(unauthorized external actions)과 최종 출력 검사가 개입하기 전 런타임(runtime) 내부에서 민감한 평문(plaintext)이 노출되는 문제입니다. 기존의 방어 기제들은 대개 플래너/런타임(planner/runtime) 또는 액션 싱크(action sink) 중 하나의 경계만을 보호하며, 따라서 그 자체만으로는 두 표면을 모두 보호하지 못합니다. 우리는 권한 부여(authorization)를 이펙트 싱크(effect sink)에 배치하고, 평문 격리(plaintext confinement)를 읽기 경계(read boundary)에 배치하는 이중 경계 아키텍처인 SecureClaw를 제시합니다. 민감한 읽기 작업은 원시 값(raw values)을 불투명한 핸들(opaque handles)로 교체하는 신뢰할 수 있는 게이트웨이를 통과하며, 평가된 배포 환경에서는 명시적인 재분류 인터페이스(declassification interface)로서 제한된 요약(bounded summaries)을 사용합니다. 외부 상태를 변경하는 쓰기 작업은 PREVIEW$
ightarrow$COMMIT 프로토콜을 따르며, 이 프로토콜에서는 오직 신뢰할 수 있는 실행자(trusted executor)만이 정책에 의해 승인된 정확한 정형 요청(canonical request)을 커밋(commit)할 수 있습니다. 런타임은 여전히 요약 및 기호 참조(symbolic references)를 통해 계획을 세울 수 있지만, 비밀 정보(secrets)를 직접 역참조(dereference)하거나 부수 효과(side effects)를 수행할 수는 없습니다. AgentDojo, AgentLeak, 그리고 Agent Security Bench (ASB) 전반에 걸쳐, SecureClaw는 공통 하네스(common harness)에서 평가된 유일한 방어 기제로, 사용 가능한 작업 유용성(task utility)을 유지하는 동시에 ASB에서 0%의 공격 성공률 (ASR), AgentDojo에서 0.64%의 ASR, 그리고 최종 출력 및 내부 전달 유출을 측정하는 AgentLeak의 공격받은 패리티 레인(attacked parity lane)에서 3.23%의 전체 유출을 달성했습니다.

Insights

SecureClaw: LLM 에이전트의 제어권 탈환

요약

핵심 포인트

댓글

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다