MemAudit: 인과적 귀속(Causal Attribution) 및 구조적 이상 탐지(Structural Anomaly Detection)를
요약
LLM 에이전트의 지속적 메모리에 주입된 악의적 기록을 탐지하기 위한 사후 인과적 감사 프레임워크 MemAudit을 제안합니다. 반사실적 영향력 점수와 메모리 일관성 그래프를 결합하여 유해한 행동의 원인이 되는 메모리를 식별합니다.
핵심 포인트
- 메모리 주입 공격(MINJA)에 대한 사후 감사 프레임워크 제안
- 반사실적 메모리 영향력 점수로 인과적 기여도 측정
- 메모리 일관성 그래프를 통한 구조적 이상 탐지
- QA 및 추론 에이전트 공격 성공률을 0%로 감소시킴
대규모 언어 모델 (LLM) 에이전트는 과거의 상호작용을 저장하고, 관련 시연 (demonstrations)을 검색하며, 장기적 과제 수행 (long-horizon task execution) 능력을 향상시키기 위해 지속적인 메모리 (persistent memory)에 점점 더 많이 의존하고 있습니다. 그러나 이러한 메모리 메커니즘은 실질적인 보안 취약점 또한 생성합니다. 즉, 적대적인 사용자가 일반적인 상호작용을 통해 에이전트의 메모리에 악의적인 기록을 주입할 수 있으며, 이러한 기록은 나중에 검색되어 에이전트의 추론과 행동을 유도할 수 있습니다. 기존의 방어 기제는 주로 프롬프트 필터링 (prompt filtering)이나 출력 차단 (output blocking)과 같은 온라인 개입 (online intervention)에 집중되어 있지만, 유해한 행동이 이미 관찰된 이후 어떤 저장된 메모리가 원인인지에 대한 사후 (post-hoc) 질문은 다루지 못합니다. 우리는 메모리 증강 (memory-augmented) LLM 에이전트를 위한 사후 인과적 메모리 감사 프레임워크인 \textbf{MemAudit}을 제안합니다. 이 프레임워크는 두 가지 상호 보완적인 신호를 결합합니다: (1) 각 메모리가 유해한 출력에 미치는 인과적 기여도를 측정하는 반사실적 메모리 영향력 점수 (counterfactual memory influence score), 그리고 (2) 광범위한 메모리 저장소 내에서 구조적으로 이상한 메모리를 식별하는 메모리 일관성 그래프 (memory consistency graph)입니다. 우리는 직접적인 메모리 뱅크 (memory-bank) 수정 대신 일반적인 에이전트 상호작용을 통해 악의적인 기록이 생성되고 저장되는 쿼리 전용 메모리 주입 공격인 MINJA를 대상으로 MemAudit을 평가합니다. QA 및 추론 에이전트 (reasoning-agent) 설정 모두에서, MemAudit은 현실적인 사후 감사 시나리오 하에서 공격 성공률을 실질적으로 감소시킵니다. 결과에 따르면 QA 공격 성공률은 $70%$에서 $0%$로 감소하였으며, RAP 공격 성공률은 $83.3%$에서 $0%$로 떨어졌습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기