개방형 에이전트 기술 생태계에서의 보안 위험 탐지 및 검증 벤치마킹
요약
개방형 에이전트 플랫폼의 공급망 위험을 탐지하기 위한 2단계 보안 심사 벤치마크인 SkillVetBench를 제안합니다. 의미론적 심사와 샌드박스 기반의 런타임 검증을 결합하여, 기존 정적 방식이 놓치기 쉬운 악성 기술을 효과적으로 식별합니다.
핵심 포인트
- SkillVetBench: 의미론적 심사와 런타임 검증을 결합한 2단계 벤치마크
- 정적 방식의 한계: 기존 방식은 악성 기술의 최대 89%를 탐지하지 못함
- 주요 공격 지점: exec, write_file 등 높은 권한을 가진 프리미티브에 집중
- 실제 사례 기반: OpenClaw 생태계의 악성 기술 샘플을 포함한 벤치마크 구축
개방형 에이전트 플랫폼(Open agent platforms)은 커뮤니티 기여자(contributors)가 에이전트가 런타임(runtime)에 호출할 수 있는 재사용 가능한 기술(skills)을 게시할 수 있도록 허용합니다. 이러한 확장성은 공급망 위험(supply-chain risk) 또한 생성합니다. 즉, 악의적인 기여자가 표면적인 검사 하에서는 무해해 보이는 기술 내부에 해로운 동작을 숨길 수 있습니다. 그러나 악성 기술 탐지(malicious-skill detection)와 런타임 검증(runtime verification)을 모두 측정하는 벤치마크가 없기 때문에 기존의 방어 체계는 평가하기 어렵습니다. 우리는 개방형 에이전트 기술 생태계를 위한 2단계 보안 심사 벤치마크인 SkillVetBench를 제시합니다. 첫 번째 단계는 각 기술의 자연어 명세(natural-language specification)에 대해 의미론적 심사(semantic vetting)를 수행하여 숨겨진 악의적 의도를 탐지합니다. 두 번째 단계는 플래그가 지정된 기술을 계측된 샌드박스(instrumented sandbox)에서 실행하여 런타임 동작을 관찰하고 감사 가능한 증거를 수집합니다. 우리는 최근의 ClawHavoc 공급망 캠페인 샘플을 포함하여, 실제 운영 중인 OpenClaw 생태계에서 확인된 악성 기술들로 벤치마크를 구축했습니다. 정적 방식(static-only methods)만 사용하는 방법과 달리, SkillVetBench는 실행 트레이스(execution traces)를 통해 탐지된 위협을 검증합니다. 우리의 실험 결과는 다음과 같습니다: (1) 의미론적 방식 및 시그니처 기반(signature-based) 베이스라인은 불충분하며, 자연어 지침, 다중 구성 요소 로직(multicomponent logic), 또는 구성 요소 간 상호작용(cross-component interactions)에서 위협이 발생하는 악성 기술의 최대 89%를 놓칩니다; (2) 런타임 공격은 적은 수의 높은 권한을 가진 프리미티브(high-permission primitives), 특히 exec, write_file, install_skill, 그리고 spawn에 집중되어 있습니다; (3) SkillVetBench는 샌드박스 실행이 구체적인 런타임 증거를 통해 악성 판정을 직접적으로 뒷받침하는 사례 연구를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기