arXiv논문2026. 06. 23. 14:21

Attention을 이용한 야생 환경에서의 악성 에이전트 기술 탐지

요약

LLM 에이전트의 '기술(skills)' 패키지를 통한 공격 표면을 방어하기 위한 2단계 탐지 프레임워크인 Locate-and-Judge를 제안합니다. 어텐션 메커니즘을 활용해 고위험 스팬을 선별하고 정밀 조사함으로써, 비용을 10배 절감하면서도 높은 탐지 성능을 확보했습니다.

핵심 포인트

LLM 에이전트용 기술(skills) 패키지가 새로운 공격 표면으로 부상
Locate-and-Judge: 어텐션 기반의 2단계(Locator-Judge) 탐지 방식
기존 LLM 스캐닝 대비 비용을 약 10배 절감하며 확장성 극대화
기존 보안 도구가 놓친 실제 악성 기술들을 높은 정밀도로 식별
연구 결과물로 라벨링된 데이터셋 공개

LLM 에이전트들은 제3자가 작성하여 마켓플레이스를 통해 배포하는 자연어 지침의 파일 기반 패키지인 '기술 (skills)'을 점점 더 많이 로드하고 있으며, 이는 사용자의 권한으로 실행됩니다. 단 하나의 악성 기술만으로도 데이터를 유출하거나, 에이전트를 하이재킹하거나, 공급망 거점 (supply-chain foothold)으로 지속될 수 있으며, 이는 기술 마켓플레이스를 에이전트 시스템을 위한 새로운 공격 표면 (attack surface)으로 만듭니다. 프롬프트 인젝션 (Prompt-injection) 방어 기제는 이 환경에 적용되지 않습니다. 이러한 방어 기제는 신뢰할 수 있는 지침과 신뢰할 수 없는 데이터 사이의 경계에 의존하지만, 기술 (skill) 자체가 지침의 집합체이므로 주입된 명령이 수많은 합법적인 명령들 사이에 위치하게 되어 그 권한을 상속받기 때문입니다. 우리는 이러한 환경을 위해 설계된 2단계 탐지기인 Locate-and-Judge를 제시합니다. 경량화된 로케이터 (locator)는 각 스팬 (span)이 끌어들이는 지침 준수 어텐션 (instruction-following attention)에 따라 기술의 구조적 스팬에 점수를 매기고 상위 K개만을 유지합니다. 그런 다음 저지 (judge)가 유지된 스팬을 상세히 조사합니다. 비용이 많이 드는 판단 과정을 소수의 고-어텐션 (high-attention) 스팬에 집중함으로써, 탐지기는 샘플이 아닌 마켓플레이스 전체를 감사할 수 있습니다. 직접적인 LLM 기반 스캐닝과 비교했을 때, 이 접근 방식은 비용을 10배(an order-of-magnitude) 가량 절감하여 재현율 (recall)의 약간의 희생만으로 확장성을 극적으로 높이며, 유사한 비용 조건에서 키워드 및 정규 표현식 (regex) 베이스라인을 압도합니다. 마켓플레이스 규모로 배치되어 무시할 수 있는 비용으로 작동하는 Locate-and-Judge는 높은 정밀도로 기술을 식별해냈으며, 식별된 기술의 대다수는 우리가 수동으로 악성임을 확인했습니다. 여기에는 무해한 기능으로 위장한 여러 기술과 SkillSpector 및 Cisco Skill Scanner가 탐지하는 데 실패한 많은 기술을 포함하여 수십 개의 실제 악성 기술이 포함되어 있습니다. 우리는 결과물인 라벨링된 데이터셋을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Attention을 이용한 야생 환경에서의 악성 에이전트 기술 탐지

요약

핵심 포인트

댓글