arXiv논문2026. 06. 10. 11:11

MemVenom: 웹 에이전트의 멀티모달 메모리에 대한 트리거 기반 오염 공격

요약

웹 에이전트의 외부 메모리를 겨냥한 멀티모달 오염 공격 프레임워크인 MemVenom을 제안합니다. 텍스트와 이미지를 결합하여 악성 메모리를 주입함으로써 에이전트의 행동을 지속적으로 조작하는 블랙박스 공격 방식을 연구했습니다.

핵심 포인트

멀티모달 메모리 오염을 통한 웹 에이전트 공격 표면 식별
트리거 기반 검색 공격과 검색 후 공격 유도 기술 제안
모델 파라미터 수정 없이 지속적이고 재사용 가능한 공격 가능
GPT-5-family 등 주요 모델에서 높은 공격 성공률 입증

외부 메모리(External memory)는 과거 경험의 검색을 통해 장기적 추론(long-horizon reasoning)을 가능하게 함으로써 현대 웹 에이전트(web agents)의 핵심 구성 요소가 되었습니다. 그러나 이러한 패러다임은 치명적인 취약점을 도입합니다. 즉, 메모리에 주입된 악성 콘텐츠가 지속적으로 회상되어 에이전트의 행동에 반복적으로 영향을 미칠 수 있다는 점입니다. 본 연구에서 우리는 웹 에이전트 시스템에서 간과되었지만 실질적인 공격 표면(attack surface)인 멀티모달 메모리 오염(multimodal memory poisoning)을 식별하고 체계적으로 연구합니다. 우리는 조율된 텍스트-이미지 증거를 통해 그래프 구조의 외부 메모리를 오염시키는 통합 블랙박스 공격 프레임워크인 MemVenom을 제안합니다. 우리의 방법은 두 단계 설계로 구성됩니다: (1) 악성 메모리의 높은 확률의 회상을 보장하는 트리거 조건부 검색 공격(trigger-conditioned retrieval attack), 그리고 (2) 적대적 섭동(adversarial perturbations)과 은밀한 OCR 주입(OCR injection)을 활용하여 원래의 사용자 목표를 무력화하는 검색 후 공격 유도(post-retrieval attack induction)입니다. 프롬프트나 텍스트 전용 메모리에서 작동하는 이전의 공격들과 달리, 우리의 접근 방식은 모델 파라미터를 수정하거나 악성 작업을 재최적화하지 않고도 지속적이고 재사용 가능하며 목표 불가지론적(goal-agnostic)인 공격을 가능하게 합니다. 여러 웹 에이전트 프레임워크와 시각-언어 모델(vision-language models)에 걸친 실험을 통해, MemVenom이 정상적인 성능에는 최소한의 영향을 미치면서도 강력한 엔드투엔드(end-to-end) 공격 성공을 달성함을 입증하였으며, GPT-5-family 웹 에이전트에서 최대 99.15%에 달하는 성공률을 기록하는 동시에 다양한 아키텍처와 모델 규모 간에 효과적으로 전이됨을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MemVenom: 웹 에이전트의 멀티모달 메모리에 대한 트리거 기반 오염 공격

요약

핵심 포인트

댓글