Attention을 이용한 야생 환경에서의 악성 에이전트 기술 탐지
요약
LLM 에이전트의 '기술(skills)' 패키지를 통한 공격 표면을 방어하기 위한 2단계 탐지 프레임워크인 Locate-and-Judge를 제안합니다. 어텐션 메커니즘을 활용해 고위험 스팬을 선별하고 정밀 조사함으로써, 비용을 10배 절감하면서도 높은 탐지 성능을 확보했습니다.
핵심 포인트
- LLM 에이전트용 기술(skills) 패키지가 새로운 공격 표면으로 부상
- Locate-and-Judge: 어텐션 기반의 2단계(Locator-Judge) 탐지 방식
- 기존 LLM 스캐닝 대비 비용을 약 10배 절감하며 확장성 극대화
- 기존 보안 도구가 놓친 실제 악성 기술들을 높은 정밀도로 식별
- 연구 결과물로 라벨링된 데이터셋 공개
LLM 에이전트들은 제3자가 작성하여 마켓플레이스를 통해 배포하는 자연어 지침의 파일 기반 패키지인 '기술 (skills)'을 점점 더 많이 로드하고 있으며, 이는 사용자의 권한으로 실행됩니다. 단 하나의 악성 기술만으로도 데이터를 유출하거나, 에이전트를 하이재킹하거나, 공급망 거점 (supply-chain foothold)으로 지속될 수 있으며, 이는 기술 마켓플레이스를 에이전트 시스템을 위한 새로운 공격 표면 (attack surface)으로 만듭니다. 프롬프트 인젝션 (Prompt-injection) 방어 기제는 이 환경에 적용되지 않습니다. 이러한 방어 기제는 신뢰할 수 있는 지침과 신뢰할 수 없는 데이터 사이의 경계에 의존하지만, 기술 (skill) 자체가 지침의 집합체이므로 주입된 명령이 수많은 합법적인 명령들 사이에 위치하게 되어 그 권한을 상속받기 때문입니다. 우리는 이러한 환경을 위해 설계된 2단계 탐지기인 Locate-and-Judge를 제시합니다. 경량화된 로케이터 (locator)는 각 스팬 (span)이 끌어들이는 지침 준수 어텐션 (instruction-following attention)에 따라 기술의 구조적 스팬에 점수를 매기고 상위 K개만을 유지합니다. 그런 다음 저지 (judge)가 유지된 스팬을 상세히 조사합니다. 비용이 많이 드는 판단 과정을 소수의 고-어텐션 (high-attention) 스팬에 집중함으로써, 탐지기는 샘플이 아닌 마켓플레이스 전체를 감사할 수 있습니다. 직접적인 LLM 기반 스캐닝과 비교했을 때, 이 접근 방식은 비용을 10배(an order-of-magnitude) 가량 절감하여 재현율 (recall)의 약간의 희생만으로 확장성을 극적으로 높이며, 유사한 비용 조건에서 키워드 및 정규 표현식 (regex) 베이스라인을 압도합니다. 마켓플레이스 규모로 배치되어 무시할 수 있는 비용으로 작동하는 Locate-and-Judge는 높은 정밀도로 기술을 식별해냈으며, 식별된 기술의 대다수는 우리가 수동으로 악성임을 확인했습니다. 여기에는 무해한 기능으로 위장한 여러 기술과 SkillSpector 및 Cisco Skill Scanner가 탐지하는 데 실패한 많은 기술을 포함하여 수십 개의 실제 악성 기술이 포함되어 있습니다. 우리는 결과물인 라벨링된 데이터셋을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기