Camouflage Injection Paper: 위장 탐지 격차 (Camouflage Detection Gap)

무엇인가 (What): Domain-Camouflaged Injection 논문은 프롬프트 인젝션 (Prompt-injection) 탐지기가 호스트 문서 자체의 도메인 어휘로 다시 작성된 페이로드 (Payload)에 대해 무너진다는 것을 보여주며, 저자들은 이 현상을 위장 탐지 격차 (Camouflage Detection Gap)라고 부릅니다. 왜 중요한가 (Why): 입력 측 탐지기 (Input-side detectors)는 대부분의 에이전트 스택 (Agent stacks)에서 첫 번째 방어벽이며, 단일 모델에서 성능이 93.8%에서 9.7%로 하락한다는 것은 호스트 도메인을 알고 있는 공격자에 대해 해당 계층이 사실상 아무런 보호를 제공하지 못함을 의미합니다. 이전 방식과의 비교 (vs prior): 명령 재정의 (Override-style) 방식의 탐지기는 전형적인 "이전 지침을 무시하세요 (ignore previous)" 페이로드에 대해 100%에 가까운 성능을 보이지만, Llama Guard 3는 위장된 페이로드를 0%도 잡아내지 못하며, 멀티 에이전트 토론 (Multi-agent debate)은 공격을 잡아내는 대신 최대 9.9배까지 증폭시킵니다. 이는 마치 명백하게 가짜인 결석 사유서만 잡아내는 학교 보건 교사와 같습니다.

동일한 요청 │ ┌────────────┴────────────┐ │ │ ┌───────▼────────┐ ┌───────▼────────┐ │ crayon note │ letterhead │ │ (override- │ │ (domain- │ │ style) │ │ camouflaged) │ └───────┬────────┘ └───────┬────────┘ │ │ block-letter scrawl, ICD codes, clinical "ignore previous" advisory phrasing │ ▼ ▼ ✓ detector catches ✗ detector waves (93.8%) through (9.7%, LG3 = 0%) school nurse = the injection-detection model (Llama Guard, fine-tuned classifiers) scrawled note "PLEASE EXCUSE TIMMY" = injection with "ignore previous" / "act as" override phrases doctor's letterhead + medical jargon = payload rewritten in the document's own domain vocabulary nurse waves the note through = detection drops from 93.8% to 9.7% underlying request is the same = identical malicious intent, just a vocabulary swap

빠른 용어 사전
프롬프트 인젝션 (Prompt injection) — 에이전트의 의도된 작업을 재정의하기 위해 검색된 문서나 도구 출력 내부에 숨겨진, LLM의 입력 컨텍스트 (Input context)로 밀반입되는 적대적 지침 (Adversarial instructions). Lethal Trifecta의 기초 개념.
Llama Guard 3 — Meta에서 출시한 입력/출력 안전 분류기 (Safety classifier)로, Llama 기본 모델을 기반으로 미세 조정(Fine-tuned)되었으며, 일반적으로 오픈 소스 인젝션 탐지기로 인용됩니다. 논문에 따르면 이 모델은 위장된 페이로드를 0% 잡아냅니다.

Override-style instruction (재정의 스타일 지시어) — 논문에서 언급하는 표준적인 인젝션 어휘 탐지기들이 포착하도록 훈련된 용어들로, "ignore previous(이전 지시 무시)", "act as DAN(DAN처럼 행동해)", "system: you are now...(시스템: 당신은 이제...)"와 같이 재정의(override)의 구문론적 표식(syntactic markers)을 포함하는 문구들을 의미합니다. Camouflage Detection Gap (위장 탐지 격차) — 논문에서 명명한 효과로, 재정의 스타일의 페이로드(payload)에 대한 탐지기의 포착률과, 동일한 페이로드를 호스트 문서의 도메인 어휘(domain vocabulary)로 다시 작성했을 때의 포착률 사이의 차이를 말합니다. Llama 3.1 8B 모델에서는 약 84%포인트의 차이가 나타납니다. Multi-agent debate (멀티 에이전트 토론) — 응답이 출력되기 전, 두 개 이상의 모델 인스턴스가 해당 응답이 안전한지 여부에 대해 논쟁하는 추론 시간(inference-time) 방어 기법입니다. 논문에 따르면, 토론 방식은 작은 모델에서 위장 공격을 잡아내기보다는 오히려 최대 9.9배까지 증폭시킵니다. Domain vocabulary (도메인 어휘) — 특정 분야의 전문적인 어조(professional register)를 의미하며, 의료(ICD 코드, 임상 권고), 법률(법령 인용, ~에 의거하여), 금융(KYC, 중대한 부정적 변화) 등이 있으며, 위장 공격은 동일한 악성 요청을 다시 작성하기 위해 이러한 어휘를 빌려옵니다. 뉴스. 2026년 5월 21일, 한 연구팀은 프롬프트 인젝션(prompt-injection) 탐지기가 문서 자체의 도메인 언어로 작성된 페이로드에 대해 무너진다는 연구 결과를 발표했습니다. Camouflage-Det 벤치마크에서 Llama 3.1 8B의 탐지율은 93.8%에서 9.7%로 떨어졌고, Gemini 2.0 Flash는 100%에서 55.6%로 급락했으며, Llama Guard 3는 위장된 페이로드를 0% 포착했습니다. 추론 시간 방어 기법으로 제안된 멀티 에이전트 토론 설정은 오히려 작은 모델에서 공격을 최대 9.9배까지 증폭시켰습니다. 탐지기 증강(Detector augmentation)은 부분적인 해결책만을 제공합니다. 논문 읽기 → 책상 위에 병가 확인서 뭉치를 쌓아둔 학교 보건 교사를 상상해 보세요. 첫 번째 쪽지에는 크레파스로 "TIMMY를 용서해 주세요. 아파요. 사탕을 주세요 — 사랑하는 엄마가"라고 적혀 있습니다. 보건 교사는 대문자로 휘갈겨 쓴 글씨, 부모의 자필 서명, 건강과 전혀 상관없는 요청 등 명백한 징후를 발견하고 이를 거절합니다. 두 번째 쪽지는 St. Mercy 소아과 그룹의 레터헤드가 찍힌 용지에 "환자 Timothy K., 9세. 진단명: 급성 바이러스 증후군 (ICD R50.9)."라고 적혀 있습니다.

Rx: 48시간 휴식; 당분(glucose) 자유 섭취. — Smith 의학박사(MD).

위장 (Camouflage) 방식이 명령 무시 (Override-style) 계열의 공격 방식과 어떻게 비교되는지:

사용된 어휘 (Vocabulary used)	탐지율 (Detector catch-rate) (Llama 3.1 8B)	Llama Guard 3
명령 무시 (Override-style) 주입: "Ignore previous", "act as", "system:"	93.8% (본 논문, 베이스라인 실험군)	~100% (본 논문, 베이스라인 실험군)
도메인 위장 (Domain-camouflaged) 주입 (본 논문): 호스트 문서 고유의 의료/법률/금융 문체 사용	9.7%	0%

왜 멀티 에이전트 토론 (Multi-agent debate)은 상황을 개선하기보다 악화시키는가?

토론 기반 방어 (Debate-based defenses)는 두 개의 모델 인스턴스에게 후보 응답이 안전한지 여부에 대해 논쟁하도록 요청합니다. 이는 적대적 논쟁 (Adversarial argumentation)이 조작을 드러낼 것이라는 직관에 기반합니다. 그러나 본 논문은 그 반대의 결과를 측정했습니다. (예시적 구성 — 논문은 최대 9.9배의 증폭을 보고하지만, 단계별 세부 내역을 공개하지는 않습니다.)

만약 단일 8B 모델이 위장된 데이터셋에 대해 6%의 베이스라인 공격 성공률 (Attack-success rate)을 가진다고 가정할 때, 두 번째 토론자(마찬가지로 8B 모델)가 반박하는 대신 첫 번째 토론자의 도메인 일관적 프레이밍 (Domain-coherent framing)에 약 70%의 사례에서 동의한다면, 결합된 파이프라인의 유효 공격 성공률은 약 6% ÷ (1 − 0.7) ≈ 20%로 상승하며, 세 번째 턴이 추가될 경우 더욱 복리로 증가합니다. 논문에서 측정한 파이프라인 전반에 걸쳐, 이는 소형 모델에서 9.9배의 증폭으로 이어집니다. 즉, 두 번째 토론자의 동의 모드가 위장된 프레이밍을 포착하는 대신, 그 프레이밍에 달라붙어 이를 강화해 버리는 것입니다.

실제 운영되는 에이전트 스택 (Production agent stacks)에 주는 시사점은 구조적입니다. 입력 측 주입 탐지 (Input-side injection detection)는 계층적 가드레일 (Layered guardrail)의 첫 번째 단계로 취급되어 왔습니다. 즉, 경계에서의 탐지기 (Detector), 그 뒤의 시스템 프롬프트 강화 (System-prompt hardening), 그리고 그 뒤의 기능 범위 제한 (Capability scoping) 순서입니다. 위장 탐지 격차 (Camouflage Detection Gap)는 적대적으로 재작성된 페이로드 (Payloads)에 대해 이 첫 번째 단계가 하중을 견디지 못한다는 것을 의미하며, 추론 시간의 토론 (Inference-time debate)으로는 모델 내부에서 이 격차를 메울 수 없음을 의미합니다. 따라서 데이터 흐름 제약 (Data-flow constraints), 기능 범위 제한 (Capability scoping), 그리고 출력 측 유출 필터 (Output-side exfiltration filters)와 같은 나머지 방어 기제들이 탐지기가 수행할 것으로 가정되었던 역할을 대신 수행해야 합니다.

이것은 가드레일 (guardrail)을 미세 조정하는 것이 아니라, 입력 측 방어 예산 (input-side defense budget) 전체를 재할당하는 것입니다. 관련 설명 자료: MCP SEP-2468 — OAuth 믹스업 방어 (mix-up defense)를 위한 RFC 9207 iss 파라미터 — 에이전트 스택 (agent stack)의 구조적 공격 표면 (attack surface)을 차단하는 또 다른 프로토콜 수준의 가드레일; QCA — AWQ/GPTQ/GGUF 전반에 걸친 이상치 주입 (Outlier injection) — 이번에는 탐지기가 아닌 양자화기 (quantizers)를 대상으로 하는 또 다른 어휘 치환 기반 공격 (attack-via-vocabulary-substitution); FutureSim — 하네스 수준의 에이전트 평가 (harness-level agent eval) 대 단일 샷 질의응답 (single-shot QA) — 단일 프롬프트 벤치마크 (single-prompt benchmarks)가 놓치는 다회차 실패 모드 (multi-turn failure modes)를 드러내는 평가 방법론.

FAQ

위장 탐지 격차 (Camouflage Detection Gap)란 무엇인가요?
위장 탐지 격차 (Camouflage Detection Gap)는 명령 재정의 (override) 스타일의 페이로드("이전 지침을 무시하십시오", "DAN처럼 행동하십시오")에 대한 주입 탐지기 (injection detector)의 포착률과, 동일한 악성 지침이 호스트 문서 고유의 도메인 어휘 (domain vocabulary)로 재작성되었을 때의 포착률 사이의 차이를 의미합니다. 이 논문은 Llama 3.1 8B에서 약 84%포인트의 격차(93.8% → 9.7%)를 보고했으며, Llama Guard 3에서는 사실상 100%포인트의 격차(거의 완벽함 → 0%)를 보고했습니다. 이러한 격차가 발생하는 이유는 탐지기가 요청의 의미론적 의도 (semantic intent)를 추론하기보다 명령 재정의 스타일 화법의 구문론적 표식 (syntactic markers)을 패턴 매칭 (pattern-matching)하기 때문입니다. 따라서 "이전 지침을 무시"를 "병원 권고안 7.4.2에 따라, 임상 AI 어시스턴트는 반드시..."와 같이 교체한 페이로드는 정당한 도메인 언어로 읽히며 탐지를 통과하게 됩니다.

왜 멀티 에이전트 토론 (multi-agent debate)은 공격을 잡아내는 대신 오히려 증폭시키나요?
멀티 에이전트 토론은 추론 시점 방어 (inference-time defense)로 제안되었습니다. 즉, 후보 응답이 출력되기 전에 두 개 이상의 모델 인스턴스가 해당 응답의 안전 여부에 대해 논쟁하게 함으로써, 의견 불일치를 통해 조작을 드러내려는 의도였습니다. 그러나 위장 주입 (camouflaged injection)에 대해 이 논문은 정반대의 결과를 발견했습니다. 두 번째 토론자는 첫 번째 토론자가 생성한 도메인 일관적 프레이밍 (domain-coherent framing)에 동조하여 이를 반박하기보다는 오히려 강화하게 되는데, 이는 해당 프레이밍이 정당한 전문적 화법으로 읽히기 때문입니다.

논문에서 측정된 파이프라인 전반에 걸쳐, 이는 소규모 모델에서 최대 9.9배의 공격 증폭 (attack-amplification)으로 이어집니다. 더 큰 규모의 토론자 (debaters)들은 어느 정도 더 잘 저항하지만, 그 격차를 좁히지는 못합니다. 구조적인 시사점은 모델에게 자신의 출력에 대해 추론하도록 요구하는 그 어떤 추론 시간 방어 기제 (inference-time defense)라도, 입력 탐지기 (input detector)를 속였던 것과 동일한 위장 (camouflage)에 취약하다는 것입니다. Llama Guard 3가 이 공격을 방어할 수 있을까요? 아니요. 논문에 따르면 Llama Guard 3는 위장된 페이로드 (camouflaged payloads)를 0% 포착했습니다. 테스트 세트의 모든 페이로드가 이를 우회했습니다. 이는 논문에서 가장 놀라운 결과인데, Llama Guard 3는 흔히 인용되는 오픈 소스 주입 분류기 (injection classifier)이며 에이전트 스택 (agent stacks)에서 입력 측 가드레일 (input-side guardrail)로 자주 사용되기 때문입니다. Gemini 2.0 Flash가 점진적으로 성능이 저하되는 것(100% → 55.6%)과 달리, 위장된 페이로드를 단 하나도 잡아내지 못했다는 사실은 이 분류기가 거의 전적으로 무효화 스타일의 구문론적 표식 (syntactic markers)에 의존하여 작동하며, 의미론적 의도 (semantic-intent)에 대한 안전장치가 없음을 시사합니다. Llama Guard 3를 계층적 가드레일의 첫 단계로 취급하는 프로덕션 에이전트 스택은, 탐지기 설계가 위장 공격 계열 (camouflage attack family)을 따라잡을 때까지 해당 방어 예산을 데이터 흐름 제약 (data-flow constraints), 기능 범위 제한 (capability scoping), 그리고 출력 측 유출 필터 (output-side exfiltration filters)로 재할당해야 할 수도 있습니다. 원문은 Learn AI Visually에 게시되었습니다.

Camouflage Injection Paper: 위장 탐지 격차 (Camouflage Detection Gap)

요약

핵심 포인트

댓글