SkillHarm: 자동 구축을 통한 생애주기 인식 기술 기반 공격
요약
에이전트 기술(Agent skills)의 생애주기 전반을 공격하는 새로운 벤치마크 SkillHarm을 소개합니다. 고정 페이로드 오염(FPP)과 자기 변이 오염(SMP) 시나리오를 통해 현재 에이전트 시스템의 보안 취약성을 체계적으로 분석합니다.
핵심 포인트
- 에이전트 기술 사용 생애주기 기반 공격 벤치마크 SkillHarm 제안
- FPP 및 SMP 두 가지 핵심 공격 시나리오 정의
- 에이전트 워크플로우 구성 요소 기반 12가지 위험 유형 분류
- 자동 구축 파이프라인 AutoSkillHarm을 통한 대규모 공격 샘플 생성
- 현재 에이전트들이 높은 공격 성공률을 보이며 보안에 취약함을 입증
에이전트 기술(Agent skills)은 에이전트 워크플로우(workflow)에서 특권적인 위치를 차지합니다. 에이전트가 이를 암묵적으로 따르고 실행할 것으로 기대되기 때문이며, 이는 제3자 기술(third-party skills)을 취약한 공격 표면(attack surface)으로 만듭니다. 기존 연구들은 기술 기반 공격(skill-based attacks)에 의해 유도되는 안전하지 않은 에이전트 동작을 밝혀냈으나, 주로 단일 작업 실행 내에서의 오염된 기술(poisoned skills)을 평가하고 임시적인 위험 목록(ad-hoc risk lists)을 통해 피해를 나열하는 데 그쳤습니다. 이러한 격차를 해소하기 위해, 우리는 기술 사용 생애주기(skill-use lifecycle) 전반에 걸친 기술 기반 공격 벤치마크인 SkillHarm과 기술 관련 위험에 대한 체계적인 분류 체계(taxonomy)를 소개합니다. SkillHarm은 두 가지 공격 시나리오를 평가합니다: 고정 페이로드 오염(Fixed-Payload Poisoning, FPP)은 고정된 오염된 기술 패키지가 이를 호출하는 모든 작업 세션을 직접적으로 침해하는 방식이며, 자기 변이 오염(Self-Mutating Poisoning, SMP)은 초기에는 무해한 실행이 지속적인 기술 콘텐츠를 조용히 변이시켜 이후 재사용될 때까지 피해를 유예하는 방식입니다. 나아가 우리는 피해가 목표로 하는 에이전트 워크플로우 구성 요소인 데이터 파이프라인(data pipelines), 시스템 환경(system environments), 에이전트 자율성(agent autonomy)을 기반으로 12가지 위험 유형을 정의합니다. 이러한 공격을 대규모로 구현하기 위해, 우리는 자연어 하네스(natural-language harnesses)에 의해 구동되는 코딩 에이전트(coding agents)를 포함한 자동 구축 파이프라인인 AutoSkillHarm을 구축합니다. 결과물인 벤치마크는 71개의 기술에 걸쳐 879개의 공격 샘플을 포함하고 있습니다. 실험 결과, 현재의 에이전트들은 FPP에서 최대 86.3%, SMP에서 69.3%의 공격 성공률을 보이며 여전히 취약한 상태임을 보여줍니다. 우리의 분석은 잠재적인 위험을 추가로 드러냅니다: 겉으로 보이는 많은 공격 실패는 에이전트가 실제 저항을 하기보다는 오염된 파일과 상호작용하는 데 실패했기 때문에 발생하며, 현재의 방어 체계들은 여전히 위협을 안정적으로 완화하는 데 실패하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기