SkillGuard: 에이전트 기술(Skill)을 위한 권한 프레임워크
요약
LLM 에이전트의 기술(Skill) 사용 시 발생하는 보안 및 개인정보 보호 위험을 해결하기 위한 SkillGuard 프레임워크를 제안합니다. 이 모델은 기술의 선언된 의도와 실제 실행 동작을 연결하는 이중 평면 거버넌스를 통해 문맥 주입 공격을 효과적으로 방어합니다.
핵심 포인트
- 에이전트 기술을 실행 가능한 아티팩트로 취급하는 권한 프레임워크 제안
- 문맥 영향력과 동작 부작용을 규제하는 이중 평면 거버넌스 모델 도입
- 실험 결과 문맥 주입 공격 성공률을 유의미하게 감소시킴
- 높은 자동화된 매니페스트 생성 성능(F1 점수 91.0%) 입증
에이전트 기술(Agent skills)은 재사용 가능한 지침(instructions), 스크립트(scripts), 도구 바인딩(tool bindings) 및 문맥적 의존성(contextual dependencies)을 통해 LLM 에이전트를 확장합니다. 그러나 현재의 기술 생태계는 주로 신뢰 기반의 로딩(trust-based loading)과 정적 검사(static inspection)에 의존하고 있어, 기술이 에이전트의 문맥(context)에 주입할 수 있는 내용과 실행 시점(runtime)에 에이전트가 수행하게 할 수 있는 행동 사이의 간극을 남겨둡니다. 이러한 간극은 새로운 보안 및 개인정보 보호 위험을 초래하며, 기존의 방어 체계는 기술 파일을 정적으로 검사하거나 개별 도구 호출(tool calls)을 규제할 뿐, 기술의 선언된 의도(declared intent)와 실행 시점의 동작(runtime behavior)을 체계적으로 연결하지 못합니다.
본 논문에서는 기술을 권한을 지닌 실행 가능한 아티팩트(executable artifacts)로 취급하는 기술 중심 권한 프레임워크인 SkillGuard를 제시합니다. SkillGuard는 기술 매니페스트(skill manifests), 실행 시점 접근 제어(runtime access control), 사용자 매개 권한 부여(user-mediated authorization), 기본 거부(deny-by-default) 강제, 역량 추론(capability inference) 및 동작 모니터링(behavior monitoring)을 통해 문맥 영향력(context influence)과 동작 부작용(action side effects)을 공동으로 규제하는 이중 평면 거버넌스 모델(dual-plane governance model)을 도입합니다.
우리는 315개의 실제 기술과 SkillInject를 대상으로 SkillGuard를 평가합니다. 권한 분류 체계(permission taxonomy)는 관찰된 보호 대상의 99.76%를 포괄하며, 자동화된 매니페스트 생성은 91.0%의 F1 점수에 도달합니다. 적대적 평가(adversarial evaluations)에서 SkillGuard는 무해한 작업 유용성(benign task utility)을 유지하면서도, 문맥 주입(contextual injections)에 대한 공격 성공률을 32.37%에서 23.02%로, 명백한 주입(obvious injections)에 대한 공격 성공률을 25.56%에서 16.67%로 감소시켰습니다. 이러한 결과는 기술 중심 권한 프레임워크로서 SkillGuard가 에이전트 기술 생태계의 개인정보 보호 및 보안을 향상시키기 위한 실질적인 토대를 제공할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기