arXiv논문2026. 05. 22. 11:20

시간적, 공간적, 의미적 회피 공격에 대한 자율 에이전트(Autonomous Agents) 벤치마킹

요약

자율 에이전트의 상태 유지 및 동적 도구 호출 과정에서 발생하는 보안 취약점을 분석한 연구입니다. 시간적, 공간적, 의미적 회피 공격 프레임워크를 제안하고, 이를 평가하기 위한 벤치마크인 A3S-Bench를 구축했습니다.

핵심 포인트

멀티 턴 상호작용 및 동적 도구 호출의 보안 위험 식별
시간적, 공간적, 의미적 세 가지 차원의 회피 공격 벡터 제안
2,254개의 실행 궤적을 포함한 A3S-Bench 벤치마크 구축
기존 방어 체계 대비 위험 트리거율을 52.6%까지 향상 입증

자율 에이전트(Autonomous agents, 예: OpenClaw)가 복잡한 작업을 수행하기 위해 시스템 수준의 깊은 권한을 가지고 운영되는 사례가 증가함에 따라, 완화되지 않은 심각한 보안 위험이 발생하고 있습니다. 현재의 취약점 분석은 압도적으로 단일 턴(single-turn), 상태 비저장(stateless) 동작에 집중되어 있어, 상태 유지(stateful) 멀티 턴 상호작용 및 동적 도구 호출(tool invocations)에 내재된 확장된 공격 표면(attack surface)을 간과하고 있습니다. 본 논문에서는 LLM 기반 에이전트 시스템을 겨냥한 새로운 다차원 회피 프레임워크(evasion framework)를 제안합니다. 우리는 세 가지 은밀한 공격 벡터를 소개합니다: (1) 연속적인 상호작용 턴에 걸쳐 악성 페이로드(payloads)를 파편화하는 시간적 회피(Temporal evasion), (2) 표준 LLM 파싱 메커니즘을 회피할 수 있는 복잡한 외부 아티팩트(artifacts) 내에 페이로드를 숨기는 공간적 회피(Spatial evasion), (3) 양성(benign)의 문맥적 노이즈 아래에 악성 의도를 가리는 의미적 회피(Semantic evasion)입니다. 이러한 위협을 체계적으로 정량화하기 위해, 우리는 2,254개의 실제 에이전트 실행 궤적(execution trajectories)으로 구성된 포괄적인 벤치마크인 A3S-Bench를 구축합니다. 10개의 주요 LLM 백본(backbones)과 통합된 표준 에이전트 프레임워크를 20개의 실질적인 위협 시나리오에 대해 평가한 결과, 우리의 회피 프레임워크가 평균 위험 트리거율(risk trigger rate)을 기존 28.3%에서 52.6%로 높인다는 것을 입증했습니다. 이러한 결과는 기존의 방어 체계가 해결하지 못하는 현재 자율 에이전트 시스템의 체계적이고 아키텍처 수준의 취약점을 드러내며, 고유한 위협에 맞춤화된 방어 메커니즘의 시급한 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시간적, 공간적, 의미적 회피 공격에 대한 자율 에이전트(Autonomous Agents) 벤치마킹

요약

핵심 포인트

댓글