arXiv논문2026. 06. 03. 12:07

SkillGuard: 에이전트 기술(Skill)을 위한 권한 프레임워크

요약

LLM 에이전트의 기술(Skill) 사용 시 발생하는 보안 및 개인정보 보호 위험을 해결하기 위한 SkillGuard 프레임워크를 제안합니다. 이 모델은 기술의 선언된 의도와 실제 실행 동작을 연결하는 이중 평면 거버넌스를 통해 문맥 주입 공격을 효과적으로 방어합니다.

핵심 포인트

에이전트 기술을 실행 가능한 아티팩트로 취급하는 권한 프레임워크 제안
문맥 영향력과 동작 부작용을 규제하는 이중 평면 거버넌스 모델 도입
실험 결과 문맥 주입 공격 성공률을 유의미하게 감소시킴
높은 자동화된 매니페스트 생성 성능(F1 점수 91.0%) 입증

에이전트 기술(Agent skills)은 재사용 가능한 지침(instructions), 스크립트(scripts), 도구 바인딩(tool bindings) 및 문맥적 의존성(contextual dependencies)을 통해 LLM 에이전트를 확장합니다. 그러나 현재의 기술 생태계는 주로 신뢰 기반의 로딩(trust-based loading)과 정적 검사(static inspection)에 의존하고 있어, 기술이 에이전트의 문맥(context)에 주입할 수 있는 내용과 실행 시점(runtime)에 에이전트가 수행하게 할 수 있는 행동 사이의 간극을 남겨둡니다. 이러한 간극은 새로운 보안 및 개인정보 보호 위험을 초래하며, 기존의 방어 체계는 기술 파일을 정적으로 검사하거나 개별 도구 호출(tool calls)을 규제할 뿐, 기술의 선언된 의도(declared intent)와 실행 시점의 동작(runtime behavior)을 체계적으로 연결하지 못합니다.

본 논문에서는 기술을 권한을 지닌 실행 가능한 아티팩트(executable artifacts)로 취급하는 기술 중심 권한 프레임워크인 SkillGuard를 제시합니다. SkillGuard는 기술 매니페스트(skill manifests), 실행 시점 접근 제어(runtime access control), 사용자 매개 권한 부여(user-mediated authorization), 기본 거부(deny-by-default) 강제, 역량 추론(capability inference) 및 동작 모니터링(behavior monitoring)을 통해 문맥 영향력(context influence)과 동작 부작용(action side effects)을 공동으로 규제하는 이중 평면 거버넌스 모델(dual-plane governance model)을 도입합니다.

우리는 315개의 실제 기술과 SkillInject를 대상으로 SkillGuard를 평가합니다. 권한 분류 체계(permission taxonomy)는 관찰된 보호 대상의 99.76%를 포괄하며, 자동화된 매니페스트 생성은 91.0%의 F1 점수에 도달합니다. 적대적 평가(adversarial evaluations)에서 SkillGuard는 무해한 작업 유용성(benign task utility)을 유지하면서도, 문맥 주입(contextual injections)에 대한 공격 성공률을 32.37%에서 23.02%로, 명백한 주입(obvious injections)에 대한 공격 성공률을 25.56%에서 16.67%로 감소시켰습니다. 이러한 결과는 기술 중심 권한 프레임워크로서 SkillGuard가 에이전트 기술 생태계의 개인정보 보호 및 보안을 향상시키기 위한 실질적인 토대를 제공할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkillGuard: 에이전트 기술(Skill)을 위한 권한 프레임워크

요약

핵심 포인트

댓글