arXiv논문2026. 06. 25. 11:08

토큰 영향력 귀속을 통한 오염된 검색 코퍼스 내 타겟 답변 추적

요약

RAG 시스템의 코퍼스 오염 공격을 탐지하기 위한 경량 프레임워크 TRACE를 제안합니다. 토큰 영향력 귀속 기술을 활용하여 추가적인 LLM 검증 없이도 악의적인 문서를 식별하고 타겟 답변을 추적할 수 있습니다.

핵심 포인트

RAG 시스템의 코퍼스 오염 공격 취약성 해결
토큰 영향력 귀속을 통한 경량 탐지 프레임워크 TRACE 제안
기존 LLM 기반 검증 방식 대비 계산 오버헤드 감소
다양한 LLM 및 QA 벤치마크를 통한 탐지 성능 입증

검색 증강 생성 (Retrieval-Augmented Generation (RAG)) 시스템은 악의적인 검색 문서들을 통해 모델의 출력을 조작하는 코퍼스 오염 (corpus poisoning) 공격에 취약합니다. 기존의 탐지 방법들은 일반적으로 보조 분류기 (auxiliary classifiers) 또는 추가적인 LLM 기반 검증에 의존하며, 이는 상당한 계산 오버헤드를 발생시킵니다. 본 논문에서는 토큰 영향력 귀속 (token influence attribution)을 통해 답변 관련 토큰을 추적함으로써 오염 공격을 식별하는 경량 탐지 프레임워크인 TRACE를 제안합니다. TRACE는 먼저 검색된 문서들 전반에 걸쳐 반복적으로 나타나는 영향력이 높은 키워드들을 발견한 다음, 모델 예측에 미치는 이들의 영향력을 확인하기 위해 2차 검증을 수행합니다. 세 가지 QA 벤치마크와 여섯 가지 LLM을 대상으로 한 실험을 통해, 공격자가 지정한 타겟 답변을 밝혀내는 동시에 강력한 탐지 성능을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

토큰 영향력 귀속을 통한 오염된 검색 코퍼스 내 타겟 답변 추적

요약

핵심 포인트

댓글