SkillSafetyBench: 스킬 기반 공격 표면에서의 에이전트 안전성 평가

재사용 가능한 스킬(Reusable skills)은 대규모 언어 모델(LLM) 에이전트를 확장하는 일반적인 인터페이스가 되고 있으며, 절차적 가이드와 파일, 도구, 메모리 및 실행 환경에 대한 접근을 패키징합니다. 하지만 이러한 모듈성은 기존의 안전성 평가에서 크게 간과되는 공격 표면을 도입합니다: 사용자의 요청이 무해하더라도, 작업 관련 스킬 자료나 로컬 아티팩트가 에이전트를 안전하지 않은 행동으로 유도할 수 있습니다. 본 논문에서는 이러한 스킬 매개 안전 실패를 평가하기 위한 실행 가능한 벤치마크인 SkillSafetyBench를 제시합니다. SkillSafetyBench는 다음을 포함합니다