SkillSafetyBench: 스킬 기반 공격 표면에서의 에이전트 안전성 평가
요약
LLM 에이전트의 확장성 증가로 인해 재사용 가능한 스킬(Reusable skills) 사용이 일반화되고 있지만, 이는 기존 안전성 평가에서 간과된 새로운 공격 표면을 만듭니다. 본 논문은 이러한 '스킬 매개 안전 실패'를 체계적으로 평가하기 위해 SkillSafetyBench라는 실행 가능한 벤치마크를 제시합니다.
핵심 포인트
- LLM 에이전트의 확장성은 재사용 가능한 스킬(Reusable skills)을 통해 이루어지며, 이는 도구 및 환경 접근성을 제공한다.
- 스킬 기반 모듈성은 사용자의 요청 자체와 무관하게, 작업 관련 자료나 로컬 아티팩트를 통해 에이전트를 안전하지 않은 행동으로 유도할 수 있는 새로운 공격 표면을 도입한다.
- SkillSafetyBench는 이러한 '스킬 매개 안전 실패(skill-mediated safety failures)'를 평가하기 위해 설계된 벤치마크이다.
재사용 가능한 스킬(Reusable skills)은 대규모 언어 모델(LLM) 에이전트를 확장하는 일반적인 인터페이스가 되고 있으며, 절차적 가이드와 파일, 도구, 메모리 및 실행 환경에 대한 접근을 패키징합니다. 하지만 이러한 모듈성은 기존의 안전성 평가에서 크게 간과되는 공격 표면을 도입합니다: 사용자의 요청이 무해하더라도, 작업 관련 스킬 자료나 로컬 아티팩트가 에이전트를 안전하지 않은 행동으로 유도할 수 있습니다. 본 논문에서는 이러한 스킬 매개 안전 실패를 평가하기 위한 실행 가능한 벤치마크인 SkillSafetyBench를 제시합니다. SkillSafetyBench는 다음을 포함합니다
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기