arXiv논문2026. 06. 30. 14:01

에이전트 메모리 포이즈닝 탐지를 위한 포렌식 궤적 시그니처

요약

LLM 에이전트의 메모리 포이즈닝 공격을 탐지하기 위해 행동 불변성을 활용한 포렌식 궤적 시그니처를 제안합니다. 특정 도구 호출 패턴을 분석하여 공격을 높은 정확도로 식별하며, 프롬프트 인젝션과 메모리 채널 공격을 구분할 수 있습니다.

핵심 포인트

메모리-도구 호출 간의 특정 전이 패턴을 통한 공격 탐지
Random Forest 분류기를 통해 AUC 0.99 이상의 높은 탐지 성능 달성
GPT-4o 등 프런티어 모델에서도 재학습 없이 일반화 가능
도구 호출 로그만으로 프롬프트 인젝션과 메모리 공격 구분 가능

우리는 지속적인 메모리 포이즈닝 (memory poisoning) 상황에서 LLM 에이전트의 행동 불변성 (behavioral invariant)을 발견했습니다. 라우팅 정보가 관찰 가능한 메모리-도구 호출 (memory-tool invocations)을 통해 검색되는 아키텍처에서, 성공적인 공격은 email_send_email을 호출하기 전에 memory_recall_fact를 호출해야 하며, 이러한 전이는 데이터를 유출하지 않는 세션에서는 거의 나타나지 않는 전환입니다. 평가된 아키텍처 하에서, 이 불변성은 단순한 경험적 상관관계가 아니라 공격의 정보 검색 의존성 (information-retrieval dependency)에서 비롯되며, 이를 억제하면 공격이 무력화됩니다. 이 불변성만을 활용한 간단한 규칙만으로도 AUC = 0.9563을 달성합니다. 19개의 궤적 특징 (trajectory features)을 사용한 Random Forest 분류기는 이를 AUC = 0.9904 (BCa 95% CI [0.987, 0.993], N=10,000 재표본)로 정교화하며, 이는 공격이 여러 독립적인 행동 채널에 흔적을 남긴다는 것을 입증합니다. 이 시그니처는 과결정 (overdetermined)되어 있습니다. 모든 회상 관련 특징 (전체 특징 세트의 절반)을 제거해도 AUC는 0.990으로 변하지 않으며, 이는 메모리 포이즈닝이 단일한 관찰 가능한 이상 징후가 아닌 분산된 궤적 시그니처 (distributed trajectory signature)를 유도함을 확인시켜 줍니다. 9개의 모델 (7B-120B 파라미터)에 대한 교차 모델 홀드아웃 (Cross-model hold-out) 결과, 9개 중 6개의 홀드아웃 분할에서 AUC = 1.000을 확인했으며, 나머지 세 가지 예외 사례도 메커니즘적으로 설명되었습니다. 이 불변성은 재학습 없이도 프런티어 모델 (GPT-4.1, GPT-4o)로 일반화됩니다. 엄격한 접두사 전용 (prefix-only) 변형 모델은 AUC = 0.934를 달성하며, 이는 적절한 성능 저하와 함께 실시간 차단이 가능하다는 것을 시사합니다. 이 경계는 포렌식적으로 유용합니다. 메모리를 우회하는 프롬프트 인젝션 (prompt-injection) 공격은 별개의 궤적 (점수 = 0.541)을 생성하므로, 사고 대응자가 도구 호출 로그 (tool-call logs)만 사용하여 메모리 채널 공격과 프롬프트 인젝션 공격을 구분할 수 있게 해줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 메모리 포이즈닝 탐지를 위한 포렌식 궤적 시그니처

요약

핵심 포인트

댓글