본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:08

토큰 영향력 귀속을 통한 오염된 검색 코퍼스 내 타겟 답변 추적

요약

RAG 시스템의 코퍼스 오염 공격을 탐지하기 위한 경량 프레임워크 TRACE를 제안합니다. 토큰 영향력 귀속 기술을 활용하여 추가적인 LLM 검증 없이도 악의적인 문서를 식별하고 타겟 답변을 추적할 수 있습니다.

핵심 포인트

  • RAG 시스템의 코퍼스 오염 공격 취약성 해결
  • 토큰 영향력 귀속을 통한 경량 탐지 프레임워크 TRACE 제안
  • 기존 LLM 기반 검증 방식 대비 계산 오버헤드 감소
  • 다양한 LLM 및 QA 벤치마크를 통한 탐지 성능 입증

검색 증강 생성 (Retrieval-Augmented Generation (RAG)) 시스템은 악의적인 검색 문서들을 통해 모델의 출력을 조작하는 코퍼스 오염 (corpus poisoning) 공격에 취약합니다. 기존의 탐지 방법들은 일반적으로 보조 분류기 (auxiliary classifiers) 또는 추가적인 LLM 기반 검증에 의존하며, 이는 상당한 계산 오버헤드를 발생시킵니다. 본 논문에서는 토큰 영향력 귀속 (token influence attribution)을 통해 답변 관련 토큰을 추적함으로써 오염 공격을 식별하는 경량 탐지 프레임워크인 TRACE를 제안합니다. TRACE는 먼저 검색된 문서들 전반에 걸쳐 반복적으로 나타나는 영향력이 높은 키워드들을 발견한 다음, 모델 예측에 미치는 이들의 영향력을 확인하기 위해 2차 검증을 수행합니다. 세 가지 QA 벤치마크와 여섯 가지 LLM을 대상으로 한 실험을 통해, 공격자가 지정한 타겟 답변을 밝혀내는 동시에 강력한 탐지 성능을 입증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0