arXiv논문2026. 05. 20. 12:04

순차적 엔트로피 변화를 통한 유창한 최적화 기반 적대적 프롬프트 탐지

요약

본 연구는 유창함을 유지하며 LLM을 탈옥하는 최적화 기반 적대적 접미사를 탐지하기 위해 토큰 수준의 엔트로피 변화를 추적하는 CPD Online(CPD) 기법을 제안합니다. CPD는 별도의 학습 없이 온라인으로 실행되며, 기존 퍼플렉시티 기반 탐지기보다 높은 정확도로 적대적 공격의 시작 지점을 국소화할 수 있습니다. 또한 LLaMA Guard의 경량 게이트로 활용 시 탐지 품질을 유지하면서도 가드 호출 횟수를 17-22% 절감하는 효율성을 보여주었습니다.

핵심 포인트

적대적 접미사 탐지를 토큰 수준의 다음 토큰 엔트로피 스트림에 대한 온라인 변화점 탐지(CPD) 문제로 정의함
모델 불가지론적(model-agnostic)이며 별도의 학습이 필요 없는(training-free) 방식임
기존 윈도우 기반 퍼플렉시티 탐지기보다 높은 F1 점수와 정밀한 공격 지점 국소화 성능을 제공함
LLaMA Guard와 결합하여 가드 호출 비용을 17-22% 감소시키는 경량 게이트 역할 수행 가능

최적화 기반 (Optimization-based) 적대적 접미사 (adversarial suffixes)는 유창함을 유지하면서도 정렬된 대규모 언어 모델 (LLMs)을 탈옥 (jailbreak)할 수 있으며, 이는 정적 및 윈도우 기반 퍼플렉시티 (perplexity) 기반 탐지기들을 무력화합니다. 본 연구에서는 적대적 접미사 탐지를 토큰 수준의 다음 토큰 엔트로피 (next-token entropy) 스트림에 대한 온라인 변화점 탐지 (online change-point detection) 문제로 정의합니다. LLM 시스템 프롬프트를 사용하여 견고한 베이스라인을 추정함으로써, 사용자 토큰 엔트로피를 표준화하고 일방향 CUSUM 통계량을 적용합니다. 그 결과물인 CPD Online (CPD) 탐지기는 모델 불가지론적 (model-agnostic)이며, 별도의 학습이 필요 없고 (training-free), 온라인으로 실행되며, 적대적 접미사의 시작 지점을 국소화 (localize)할 수 있습니다. 1,012개의 최적화 기반 접미사 공격 (GCG, AutoDAN, AdvPrompter, BEAST, AutoDAN-HGA)과 1,012개의 퍼플렉시티가 제어된 양성 프롬프트 (benign prompts)로 구성된 벤치마크에서, CPD는 6개의 모든 오픈 웨이트 (open-weight) 채팅 모델 (LLaMA-2-7B/13B, Vicuna-7B/13B, Qwen2.5-7B/14B)에 대해 가장 강력한 윈도우 기반 퍼플렉시티 베이스라인보다 높은 F1 점수를 개선했습니다. 표준적인 CUSUM 설정 ($k=0$)에서의 LLaMA-2-7B 모델에 대해, CPD는 AUROC 0.88 및 F1 0.82에 도달했습니다. 프롬프트 수준의 탐지를 넘어, CPD는 트리거의 79.6%를 적대적 접미사 내부로 집중시키는 반면, 윈도우 기반 퍼플렉시티는 17-46%에 그쳤습니다. 마지막으로, LLaMA Guard를 위한 경량 게이트 (lightweight gate)로 사용되었을 때, CPD는 양성 프롬프트가 지배적인 대규모 배포 환경에서 가드 (guard) 호출을 17-22% 감소시키면서도 가드 수준의 탐지 품질을 유지했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

순차적 엔트로피 변화를 통한 유창한 최적화 기반 적대적 프롬프트 탐지

요약

핵심 포인트

댓글