arXiv논문2026. 06. 15. 11:38

방패에서 타겟으로: LLM 기반 에이전트 가드레일에 대한 서비스 거부(DoS) 공격

요약

LLM 기반 에이전트 가드레일의 추론 능력을 악용하여 무한 루프를 유발하는 서비스 거부(DoS) 공격 방식을 연구했습니다. 공격자는 정교한 페이로드를 통해 토큰 및 지연 시간을 대폭 증폭시켜 시스템을 마비시킬 수 있습니다.

핵심 포인트

가드레일의 추론 능력을 역이용한 새로운 DoS 공격 취약점 발견
빔 서치 최적화 프레임워크를 통한 추론 길이 최대화 페이로드 제작
Claude, GPT 등 주요 모델에 대해 13~63배의 토큰 증폭 달성
실제 환경에서 최대 148배의 지연 시간 증폭 및 시스템 마비 확인
비용 효율적이고 추론에 강건한 가드레일 설계의 필요성 강조

LLM 기반 가드레일(guardrails)은 자율 에이전트(autonomous agents)에서 프롬프트 인젝션(prompt injection) 및 탈옥(jailbreak) 공격에 대한 매우 효과적인 방어 수단으로 등장했습니다. 그러나 우리는 이러한 보호를 가능하게 하는 바로 그 추론(reasoning) 및 작업 수행(task-following) 능력이 새로운 취약점을 유발한다는 사실을 밝혀냈습니다. 즉, 공격자가 정교하게 제작된 데이터를 주입하여 가드레일을 무한한 추론 루프(reasoning loops)에 빠뜨림으로써 체계적인 서비스 거부(Denial-of-Service, DoS) 공격을 수행할 수 있습니다. 이 위협을 체계적으로 드러내기 위해, 우리는 전략 뱅크(strategy bank)의 안내를 받는 LLM 제안자(proposer)를 활용하여 가드레일의 추론 길이를 최대화하는 자연어 페이로드(payload)를 제작하는 빔 서치(beam-search) 최적화 프레임워크를 설계했습니다. 가드레일의 스키마 준수(schema-following) 특성에 대한 관찰을 바탕으로, 우리는 또한 계산 부하가 적은 메커니즘 인식 구조적 변이(mechanism-aware structural mutations)에 의해 구동되는 또 다른 공격 프레임워크를 제공합니다. 공격 효능은 두 부분으로 나누어 체계적으로 평가되었습니다. 첫째, 독립적인 평가에서 이 공격은 다양한 가드레일 아키텍처, 안전 템플릿(safety templates) 및 에이전트 벤치마크 전반에 걸쳐 일반화됩니다. 단일 오픈 소스 대리 모델(surrogate)에서 최적화된 페이로드는 8개의 주요 모델 백본(예: Claude, GPT, Gemini, DeepSeek, Qwen)으로 성공적으로 전이되어, 13~63배의 토큰 증폭을 달성했습니다. 둘째, 엔드 투 엔드(end-to-end) 실제 환경의 에이전트 배포(웹, 데스크톱, 코드 및 멀티 에이전트 시스템)에서 이 공격은 최대 148배의 지연 시간(latency) 증폭을 보여줍니다. 우리는 단 하나의 오염된 문서가 공유된 가드레일 인프라를 포화시켜, 동일한 위치에 있는 에이전트들을 효과적으로 고립시키고 전체 시스템을 마비시킬 수 있음을 보여줍니다. 이러한 가용성(availability) 결함을 밝혀냄으로써, 본 연구는 비용 제한적이고 추론에 강건한(reasoning-robust) 가드레일을 개발해야 할 시급한 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

방패에서 타겟으로: LLM 기반 에이전트 가드레일에 대한 서비스 거부(DoS) 공격

요약

핵심 포인트

댓글