Dev.to헤드라인2026. 06. 21. 01:17

AI 공격자에게 승리했다고 말했지만, 사실 그는 패배했습니다

요약

LLM의 단순 거절 방식이 공격자에게 최적화 힌트를 제공한다는 점을 지적하며, 이를 해결하기 위한 보안 게이트웨이 'misdirection-proxy'를 소개합니다. 이 도구는 공격자를 차단하는 대신 제어된 오정보를 제공하여 공격자의 최적화 과정을 무력화합니다.

핵심 포인트

단순 거절은 공격자에게 최적화 기울기를 제공하여 공격 성공률을 높임
misdirection-proxy는 공격자를 속이는 '제어된 오정보' 전략 사용
Context Filter, Intention Detector, Adaptive Controller, CMPE Engine의 4단계 방어 계층
공격자가 성공했다고 믿게 만들면서 실제로는 무의미한 응답을 생성하여 공격 붕괴 유도

LLM이 _"그 요청은 도와드릴 수 없습니다"_라고 말할 때마다, 공격자에게 최적화 기울기 (optimization gradient)를 선물하는 셈입니다.

이것은 직관이 아닙니다. 수학입니다:

ASR = 1 - (1 - β_D · (1 - β_A))^N  →  1 cuando N → ∞

예측 가능한 모든 거절은 힌트가 됩니다. 공격자는 조정하고, 반복하며, 결국 승리합니다.

만약 시스템이 "아니오"라고 말하는 대신, "예"라고 말하되 함정을 판다면 어떨까요?

misdirection-proxy v0.5.0을 소개합니다

예측 가능한 차단 대신 **제어된 오정보 (controlled misinformation)**로 대체하는 보안 게이트웨이 (security gateway)입니다. 공격을 감지했을 때 차단하는 것이 아니라, 속입니다. 공격자의 자동화된 판독기(automated judge)에는 성공한 것처럼 보이지만, 운영상으로는 무의미한 응답을 생성합니다.

공격자는 자신이 이기고 있다고 믿습니다. 하지만 실제로는 그의 최적화 도구 (optimizer)가 붕괴하고 있습니다.

작동 방식

단일 HTTP 요청 내에서 4개의 방어 계층이 작동합니다:

1. Context Filter — 숨겨진 간접 주입 (indirect injections)을 찾기 위해 외부 데이터 (RAG, 도구, 문서)를 분석합니다.

2. Intention Detector — 프롬프트를 5가지 카테고리로 분류합니다: jailbreak, 데이터 유출 (exfiltration), 코드 실행 (code execution), 프롬프트 인젝션 (prompt injection), 사회 공학 (social engineering).

3. Adaptive Controller — 공격자가 지속될 경우 (동일한 X-Session-ID), 방어 강도를 로그 함수적으로 높입니다: γ_A(t) = min(0.71 + ln(1 + 0.3·ΣM_i), 0.99)

4. CMPE Engine — 기만 응답을 생성합니다: 긍정적인 서문 + 재구성된 콘텐츠 (reshuffled content) + 후속 질문. 성공한 것처럼 보이지만, 무해합니다.

공격자의 붕괴

사이클	γ_A	공격자의 PPV	상태
1	0.71	0.07	쓰레기 데이터를 받고 조정함
...

3 사이클 후에 공격자는 잠재 공간 (latent space)의 데드 존 (dead region)으로 수렴합니다. 더 이상 진행할 수 없습니다. "성공적인" 응답을 받기 때문에 이기고 있다고 믿지만, 각 응답은 유도된 거짓 양성 (false positive)입니다.

지금 테스트해보세요

git clone https://github.com/amurlaniakea/misdirection-proxy.git
cd misdirection-proxy
docker compose up -d
...

이 벤치마크(Benchmark)는 30가지 공격(직접 공격, 간접 공격, RAG 인젝션 (RAG injection))을 실행하고 PPV, ASR, γ_A(t) 및 지연 시간 (latency)을 포함한 JSON 보고서를 생성합니다.

스택 (Stack)

Motor CMPE — 3단계의 통제된 오정보 (desinformación) 프로세스
Detector — 5가지 위협 카테고리
Gateway HTTP — FastAPI, OpenAI API 호환
Controlador Adaptativo — γ_A의 로그 스케일링 (logarithmic scaling)
Context Filter — RAG/도구 (tools) 내 간접 인젝션 (indirect injections)
Benchmark — 듀얼 모드 적대적 시뮬레이터 (dual-mode adversarial simulator)

147개 테스트 통과 중.

링크 (Links)

Repo: https://github.com/amurlaniakea/misdirection-proxy
Paper: https://arxiv.org/abs/2606.20470
Licencia: AGPL-3.0

실제 운영 환경에서 기만(deception)을 통한 방어를 사용할까요? 의견을 기다립니다.

AI 자동 생성 콘텐츠

원문 바로가기