arXiv논문2026. 06. 08. 12:13

MalSkillBench: 악성 에이전트 기술(Malicious Agent Skills)에 대한 런타임 검증 벤치마크

요약

AI 코딩 에이전트의 공급망 보안 위협을 평가하기 위한 최초의 런타임 검증 벤치마크인 MalSkillBench를 제안합니다. 코드와 프롬프트가 결합된 악성 기술을 탐지하기 위해 3,944개의 악성 샘플과 샌드박스 기반 검증 파이프라인을 구축했습니다.

핵심 포인트

MalSkillBench는 3차원 분류 체계 기반의 악성 에이전트 기술 벤치마크임
코드 주입은 탐지율이 높으나 프롬프트 주입은 탐지가 어려움
기존 스캐너는 코드와 지침의 관계를 복구하지 못해 탐지에 한계가 있음
효과적인 탐지를 위해 작업 의도, 코드, 지침에 대한 공동 추론이 필수적임

Claude Code 및 Gemini CLI와 같은 AI 코딩 에이전트(AI coding agents)들은 자연어 지침(natural-language instructions), 실행 가능한 스크립트(executable scripts), 그리고 도구 권한(tool permissions)을 묶은 마크다운 패키지(markdown packages)와 같은 제3자 기술(third-party skills)을 통해 기능을 점점 더 확장하고 있습니다. 기술(skill)은 코드(code)인 동시에 에이전트 지향적 지침(agent-facing instruction)이기 때문에, 그 위험이 순수하게 코드에만 있거나 순수하게 프롬프트(prompt)에만 있지 않은 공급망 의존성(supply chain dependency)을 유발합니다. 탐지 도구들은 이러한 하이브리드 공간을 아우르는 검증된 정답(verified ground truth)을 기준으로 측정된 적이 없으며, 이로 인해 그 효과는 알려지지 않았고 야생 데이터(in-the-wild)만을 이용한 평가는 편향되어 있습니다.

우리는 악성 에이전트 기술에 대한 최초의 런타임 검증 벤치마크인 MalSkillBench를 제시합니다. 이는 108개의 셀(cells)로 구성된 3차원 분류 체계(three-dimensional taxonomy)에 따라 라벨링된 3,944개의 악성 기술을 포함합니다. 이 중 3,214개는 생성-검증-피드백(Generate-Verify-Feedback) 폐쇄 루프 파이프라인에서 도출되었으며, 시스템 호출 모니터링(system-call monitoring)과 LLM 판사(LLM judge) 하의 Docker 샌드박스(Docker sandbox) 내부에서 악성 동작이 실행되는 샘플만을 허용합니다. 여기에 703개의 야생(in-the-wild) 샘플과 4,000개의 매칭된 양성(benign) 기술을 추가했습니다.

우리의 측정 결과는 일관적입니다: 코드 주입(code injection)은 94.5%의 검증 수율(verification yield)에 도달하지만, 프롬프트 주입(prompt injection)은 75.8%에 그치며, 이러한 취약성은 나중에 탐지를 어렵게 만드는 원인이 됩니다. 야생 샘플은 범위가 좁으며, 하나의 암호화폐 탈취 캠페인(cryptocurrency-theft campaign)이 지배적입니다(한 가지 동작이 86.6%, 두 계정에서 81%). 또한 에이전트 제어 평면(agent control plane)을 공격하는 작지만 구조적으로 새로운 꼬리(tail) 부분도 존재합니다. 가장 강력한 기술 특화 탐지기(skill-specific detector)는 코드 주입에 대해 98.4%의 재현율(recall)에 도달하지만, 프롬프트 주입 및 에이전트 제어 공격에서는 무너집니다. 또한 야생 데이터만을 이용한 점수 산정은 순위를 최대 66 재현율 포인트까지 변화시킵니다. 공급망 스캐너(supply-chain scanners)와 프롬프트 주입 방어(prompt-injection defenses)는 각각 기술의 절반만을 볼 수 있으며, 어떤 조합으로도 코드-지침 관계(code-instruction relationship)를 복구할 수 없습니다. 따라서 악성 기술을 탐지하려면 작업 의도(task intent), 코드, 그리고 지침에 대해 공동으로 추론(reasoning jointly)하는 것이 필요합니다. 우리는 데이터셋, 파이프라인, 베이스라인(baselines) 및 결과를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MalSkillBench: 악성 에이전트 기술(Malicious Agent Skills)에 대한 런타임 검증 벤치마크

요약

핵심 포인트

댓글