프롬프트 인젝션에서 지속적인 제어까지: 에이전트 하네스(Agentic Harness)를 트로이 목마 백도어로부터 방어하기
요약
LLM 에이전트가 파일 읽기/쓰기 및 도구 호출을 수행할 때 발생하는 다단계 트로이 목마 공격 위협을 분석합니다. 새로운 벤치마크 ClawTrojan을 통해 공격 성공률을 입증하고, 이를 방어하기 위한 동적 방어 체계인 DASGuard를 제안합니다.
핵심 포인트
- 에이전트의 도구 사용 및 파일 접근이 새로운 공격 표면으로 작용
- 개별 단계는 무해해 보이지만 집합적으로 백도어를 형성하는 다단계 공격 위험
- ClawTrojan 벤치마크를 통해 기존 방어 체계의 한계 증명
- DASGuard를 통한 제어 유사 텍스트 스캔 및 출처 추적 방어
LLM 에이전트(LLM agents)는 대화형 챗봇에서 실제 업무 공간의 운영 도구로 진화하고 있습니다. 로컬 에이전트 하네스(local agentic harnesses)에서 LLM은 파일을 읽고 쓸 수 있으며, 도구(tools)를 호출하고, 세션 전반에 걸쳐 워크스페이스 상태(workspace state)를 재사용할 수 있습니다. 이러한 기능은 유용성을 높여주지만, 공격자에게 새로운 공격 표면(attack surface)을 노출하기도 합니다. 공격자는 파일이나 도구 출력 내에 프롬프트 인젝션(prompt injection)을 삽입할 수 있습니다. 에이전트는 이 숨겨진 지침을 읽고, 저장한 뒤, 나중에 실행할 수 있습니다. 이러한 다단계 트로이 목마 공격 패러다임(multi-step trojan attack paradigm)에서는 개별 단계가 그 자체로는 악의적으로 보이지 않지만, 이러한 단계들이 집합적으로 신뢰할 수 없는 텍스트를 지속적인 제어 콘텐츠(persistent control content)로 바꿀 수 있습니다. 그러나 기존의 방어 체계는 종종 각 단계를 개별적으로 검사합니다. 그 결과, 명백하게 해로운 동작은 차단할 수 있지만, 백도어를 심는 이전의 쓰기 작업(write operation)을 탐지하는 데는 실패합니다. 이 위협을 드러내기 위해, 우리는 로컬 에이전트 하네스에서의 다단계 트로이 목마 공격을 식별하도록 설계된 벤치마크인 ClawTrojan을 소개합니다. GPT-5.4가 포함된 OpenClaw 스타일의 시뮬레이션 워크스페이스에서, ClawTrojan은 95.5%의 공격 성공률(ASR)을 기록한 반면, 기존의 단일 턴 프롬프트 인젝션(single-turn prompt-injection) 공격은 동일한 모델에서 거의 0에 가까운 ASR을 보였습니다. 이 위협에 대응하기 위해, 우리는 민감한 로컬 파일 내의 제어 유사 텍스트(control-like text)를 스캔하고, 그 출처를 추적하며, 신뢰할 수 있는 출처에서 유래하지 않은 제어 콘텐츠를 제거하는 DASGuard를 제안합니다. 우리의 결과는 DASGuard가 런타임 공격 차단과 워크스페이스에 대한 정화된 커밋(sanitized commits)을 결합함으로써 강력한 동적 방어(dynamic defense)를 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기