arXiv논문2026. 06. 01. 11:31

프롬프트 인젝션에서 지속적인 제어까지: 에이전트 하네스(Agentic Harness)를 트로이 목마 백도어로부터 방어하기

요약

LLM 에이전트가 파일 읽기/쓰기 및 도구 호출을 수행할 때 발생하는 다단계 트로이 목마 공격 위협을 분석합니다. 새로운 벤치마크 ClawTrojan을 통해 공격 성공률을 입증하고, 이를 방어하기 위한 동적 방어 체계인 DASGuard를 제안합니다.

핵심 포인트

에이전트의 도구 사용 및 파일 접근이 새로운 공격 표면으로 작용
개별 단계는 무해해 보이지만 집합적으로 백도어를 형성하는 다단계 공격 위험
ClawTrojan 벤치마크를 통해 기존 방어 체계의 한계 증명
DASGuard를 통한 제어 유사 텍스트 스캔 및 출처 추적 방어

LLM 에이전트(LLM agents)는 대화형 챗봇에서 실제 업무 공간의 운영 도구로 진화하고 있습니다. 로컬 에이전트 하네스(local agentic harnesses)에서 LLM은 파일을 읽고 쓸 수 있으며, 도구(tools)를 호출하고, 세션 전반에 걸쳐 워크스페이스 상태(workspace state)를 재사용할 수 있습니다. 이러한 기능은 유용성을 높여주지만, 공격자에게 새로운 공격 표면(attack surface)을 노출하기도 합니다. 공격자는 파일이나 도구 출력 내에 프롬프트 인젝션(prompt injection)을 삽입할 수 있습니다. 에이전트는 이 숨겨진 지침을 읽고, 저장한 뒤, 나중에 실행할 수 있습니다. 이러한 다단계 트로이 목마 공격 패러다임(multi-step trojan attack paradigm)에서는 개별 단계가 그 자체로는 악의적으로 보이지 않지만, 이러한 단계들이 집합적으로 신뢰할 수 없는 텍스트를 지속적인 제어 콘텐츠(persistent control content)로 바꿀 수 있습니다. 그러나 기존의 방어 체계는 종종 각 단계를 개별적으로 검사합니다. 그 결과, 명백하게 해로운 동작은 차단할 수 있지만, 백도어를 심는 이전의 쓰기 작업(write operation)을 탐지하는 데는 실패합니다. 이 위협을 드러내기 위해, 우리는 로컬 에이전트 하네스에서의 다단계 트로이 목마 공격을 식별하도록 설계된 벤치마크인 ClawTrojan을 소개합니다. GPT-5.4가 포함된 OpenClaw 스타일의 시뮬레이션 워크스페이스에서, ClawTrojan은 95.5%의 공격 성공률(ASR)을 기록한 반면, 기존의 단일 턴 프롬프트 인젝션(single-turn prompt-injection) 공격은 동일한 모델에서 거의 0에 가까운 ASR을 보였습니다. 이 위협에 대응하기 위해, 우리는 민감한 로컬 파일 내의 제어 유사 텍스트(control-like text)를 스캔하고, 그 출처를 추적하며, 신뢰할 수 있는 출처에서 유래하지 않은 제어 콘텐츠를 제거하는 DASGuard를 제안합니다. 우리의 결과는 DASGuard가 런타임 공격 차단과 워크스페이스에 대한 정화된 커밋(sanitized commits)을 결합함으로써 강력한 동적 방어(dynamic defense)를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

프롬프트 인젝션에서 지속적인 제어까지: 에이전트 하네스(Agentic Harness)를 트로이 목마 백도어로부터 방어하기

요약

핵심 포인트

댓글