arXiv논문2026. 06. 26. 11:31

MIRROR: 에이전트형 RAG를 위한 참신함 제약 기반 메모리 가이드 MCTS 레드팀 공격

요약

멀티모달 에이전트형 RAG 시스템의 다양한 공격 표면을 탐색하기 위한 통합 레드팀 프레임워크 MIRROR를 제안합니다. MCTS와 참신함 제약을 활용하여 텍스트, 이미지, 오케스트레이터 조작 등 여러 공격 방식에서 높은 성공률을 입증했습니다.

핵심 포인트

에이전트형 RAG의 확장된 공격 표면(텍스트/이미지 오염, 도구 조작 등) 분석
MCTS 기반의 메모리 가이드 프레임워크 MIRROR 제안
이미지 오염 및 오케스트레이터 공격에서 높은 공격 성공률(ASR) 달성
ART-SafeBench 및 런타임 어댑터 공개를 통한 연구 기여

멀티모달 에이전트형 검색 증강 생성 (Agentic RAG) 시스템은 프롬프트 주입 (Prompt Injection)을 넘어 텍스트 오염 (Text Poisoning), 이미지 주입 (Image Injection), 직접 질의 공격 (Direct-query Attacks), 그리고 오케스트레이터 수준의 도구 조작 (Orchestrator-level Tool Manipulation)까지 공격 표면을 확장합니다. 기존의 레드팀 (Red-teaming) 접근 방식은 일반적으로 특정 표면에 국한되어 있으며, 알려진 공격 템플릿을 재사용하는 경우가 많습니다. 텍스트 오염 벤치마크에서 우리는 73-84%의 정확한 중복을 측정했습니다. 우리는 명시적인 참신함 제약 (Novelty Constraint) 하에 검색된 컨텍스트를 바탕으로 후보 생성을 조건화하면서, 메모리 가이드 몬테카를로 트리 탐색 (Memory-guided Monte Carlo Tree Search, MCTS)을 수행하는 통합 교차 표면 프레임워크인 MIRROR를 제시합니다. 결정론적 참신함 게이트 (Novelty Gate)는 정규화된 비교 하에 검색 세트와 일치하는 모든 후보를 거부하여, 프롬프트 복제를 허용하지 않으면서도 검색 결과가 탐색 사전 확률 (Search Priors)에 정보를 제공할 수 있도록 합니다. 멀티모달 에이전트형 RAG 대상을 대상으로 한 네 가지 공격 표면 전반에서, MIRROR는 이미지 오염 (Image Poisoning)에서 베이스라인의 52%와 비교하여 76%의 공격 성공률 (ASR)을 달성하였고, 절반의 쿼리 비용으로 오케스트레이터 공격 (Orchestrator Attacks)에서 97%의 ASR을 기록했으며, 가장 낮은 교차 표면 분산 (변동 계수 0.47)을 보였습니다. 반면, 특화된 베이스라인들은 표면 간 성능이 급격히 저하됩니다. 접미사 최적화 (Suffix Optimization)는 텍스트 오염에서 79%의 ASR에 도달하지만 직접 질의 (Direct Queries)에서는 1%에 그칩니다. 우리는 41,815개의 패키지 내 레코드를 포함한 ART-SafeBench와 네 가지 표면에 걸쳐 총 41,991개 이상의 레코드를 생성하는 런타임 어댑터를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MIRROR: 에이전트형 RAG를 위한 참신함 제약 기반 메모리 가이드 MCTS 레드팀 공격

요약

핵심 포인트

댓글