arXiv논문2026. 05. 01. 13:13

잠재적 적대적 탐지: 다중 턴 공격 탐지를 위한 LLM 활성화의 적응적 탐색

요약

본 연구는 다중 턴 프롬프트 주입 공격이 모델의 잔류 스트림에 남기는 '적대적 불안정성(adversarial restlessness)'이라는 활성화 수준의 서명을 탐지하는 방법을 제안합니다. 기존 텍스트 기반 방어 기법으로는 놓치기 쉬운 은밀한 다중 턴 공격을 포착하기 위해, 이 연구는 대화 경로를 따라 변화하는 5개의 스칼라 궤적 특성을 활용하여 높은 탐지율(최대 93.8%)을 달성했습니다. 또한, 효과적인 방어를 위해서는 다양한 공격 분포를 포함한 다중 소스 학습과 세부 단계별 라벨링이 필수적임을 입증합니다.

핵심 포인트

다중 턴 프롬프트 주입 공격은 모델의 잔류 스트림에 '적대적 불안정성'이라는 활성화 수준 서명을 남긴다.
5개의 스칼라 궤적 특성을 사용하여 대화 수준에서 높은 탐지율(최대 93.8%)을 달성할 수 있다.
탐지 성능은 다양한 공격 분포를 포함하는 다중 소스 학습에 크게 의존한다.
효과적인 방어를 위해서는 단순히 이진한 대화 수준 라벨링만으로는 부족하며, 세부 단계별 (turn-level) 라벨이 필수적이다.

다중 턴 프롬프트 주입은 신뢰 구축, 피벗팅, 에스컬레이션이라는 알려진 공격 경로를 따르지만, 텍스트 수준의 방어 기법은 개별 턴이 유해하지 않아 보이는 은밀한 공격을 놓칩니다. 우리는 이 공격 경로가 모델의 잔류 스트림(residual stream)에 활성화 수준의 서명(activation-level signature)을 남긴다는 것을 보여줍니다. 각 단계(phase)의 이동은 활성화를 변화시켜, 합법적인 대화보다 훨씬 긴 총 경로 길(total path length)을 생성합니다. 우리는 이를 '적대적 불안정성(adversarial restlessness)'이라고 부릅니다. 이 신호를 포착하는 5 개의 스칼라 궤적 특성(scalar trajectory features)은 합성 데이터(held-out data)에서 대화 수준의 탐지율을 76.2% 에서 93.8% 로 높였습니다. 이 신호는 4 가지 모델 패밀리(24B-70B)를 걸쳐 재현되지만, 프로브(probes) 는 모델 특이적(model-specific)이며 아키텍처 간에 전이되지 않습니다. 일반화 능력은 소스(source) 에 의존합니다: leave-one-source-out 평가에서 합성 데이터, LMSYS-Chat-1M, SafeDialBench 가 각각 다른 공격 분포를 포착하는 것을 보여주며, 훈련 시 해당 분포가 대표될 때 실제 세계의 LMSYS 에서 탐지율은 47-71% 로 나타납니다. 세 소스(source) 를 결합한 훈련은 혼합된 세트(mixed set) 에서 2.4% 의 위양성(false positive) 비율로 89.4% 의 탐지율을 달성했습니다. 우리는 또한 합성 데이터에만 있는 세 단계(turn-level) 라벨(유해하지 않음/피벗팅/적대적) 이 필수적임을 추가로 보여줍니다. 이진 대화 수준 라벨(binary conversation-level labels) 은 50-59% 의 위양성을 초래합니다. 이러한 결과는 적대적 불안정성을 신뢰할 수 있는 활성화 수준의 신호로 확립하고, 실용적인 배포를 위한 데이터 요구 사항을 규명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

잠재적 적대적 탐지: 다중 턴 공격 탐지를 위한 LLM 활성화의 적응적 탐색

요약

핵심 포인트

댓글