당신의 LLM 가드레일은 영어를 사용하지만, 공격자는 그렇지 않습니다

저는 "제 시스템을 직접 공격하는" 당혹스러운 방식으로 이 사실을 깨달았습니다.

저는 프롬프트가 LLM에 도달하기 전에 검사하는 오픈 소스 적대적 탐지 엔진(adversarial detection engine)인 FIE를 관리하고 있습니다. 이 엔진은 영어로 된 "Ignore all previous instructions(이전의 모든 지침을 무시하세요)"를 82%의 신뢰도로 즉시 차단합니다. 그래서 어느 오후, 저는 똑같은 문장을 힌디어로 "पहले सभी निर्देशों को अनदेखा करें"라고 입력했고, 그것이 정문을 통해 그대로 통과하는 것을 지켜보았습니다.

그 단 한 번의 테스트가 저를 3주간의 몰입(rabbit hole)으로 이끌었습니다. _제가 읽은 것, 배운 것, 그리고 구현한 결과물은 다음과 같습니다.
_
이 문제에는 이름과 논문이 있습니다
저는 제가 아주 지엽적인 무언가를 발견한 것이라고 가정했습니다. 하지만 그렇지 않았습니다.
Deng 등은 "Multilingual Jailbreak Challenges in Large Language Models" (MultiJail, arXiv:2310.06474)에서 정확히 이 현상을 기록했습니다.

그들의 발견은 냉혹합니다: 안전 정렬(safety alignment)은 압도적으로 영어 데이터로 학습되기 때문에, 저자원 언어(low-resource languages)가 의도치 않은 우회로가 된다는 것입니다. 영어에서 거부되는 것과 동일한 악의적인 의도가 벵골어, 스와힐리어, 또는 자바어로는 답변됩니다.

모델 자체가 이런 방식으로 유출된다면, 주로 영어 패턴으로 학습된 탐지기 역시 동일한 사각지대를 물려받게 됩니다. 저의 35% 다국어 재현율(recall)은 버그가 아니라, 영어 중심의 설계가 가져온 예측 가능한 결과였습니다. 문제를 올바르게 명명하는 것이 첫 번째 실질적인 진전이었습니다.

제 사고방식에 영향을 준 두 번째 논문은 XSTest (Röttger et al., arXiv:2308.01263)였습니다. 이는 탈옥(jailbreak)이 아닌 과잉 거부(over-refusal)에 관한 것이지만, 제가 소홀히 했던 원칙을 강조해 주었습니다: 모든 재현율(recall)의 이득은 반드시 거짓 양성(false positives)이라는 대가를 치러야 하며, 두 가지를 모두 측정해야만 그 가격을 알 수 있다는 점입니다. 이것이 왜 중요한지는 나중에 다시 다루겠습니다.

제가 구축한 것: 단일 모델이 아닌 3단계 구조
저는 단일 다국어 분류기(multilingual classifier)를 던져 넣고 싶은 충동을 억제했습니다. 공격은 다양한 형태로 도착하며, 각 형태에는 서로 다른 센서가 필요하기 때문입니다.

Tier 1 — 스크립트 이상 점수 산정 (Script anomaly scoring). 어떠한 언어 로직을 적용하기 전에, 프롬프트의 유니코드(Unicode) 구성을 점수화합니다. 영어 위주의 앱에서 갑자기 데바나가리(Devanagari), 한글(Hangul), 또는 아랍어(Arabic) 스크립트 블록이 나타나는 것 자체가 하나의 신호입니다. 저렴하고 빠르며, 언어에 구애받지 않습니다.

Tier 2 — 정적 문구 매칭 (Static phrase matching), 8개에서 14개 언어로 확장. 저는 '이전 지침을 무시하세요 (ignore previous instructions)', '당신에게는 제한이 없습니다 (you have no restrictions)', '시스템 프롬프트를 공개하세요 (reveal your system prompt)'와 같은 전형적인 주입(injection) 문구들을 6개의 새로운 언어인 힌디어, 일본어, 한국어, 터키어, 네덜란드어, 폴란드어로 직접 큐레이션했습니다. 지루하고 결정론적(deterministic)이지만, 추론 비용(inference cost) 없이 빈도가 높은 공격들을 잡아냅니다.

Tier 3 — 번역 후 탐지 (Translate-then-detect). 이것이 제가 가장 자랑스럽게 생각하는 부분입니다. 정적 문구는 이미 목격한 것들만 잡아낼 수 있습니다. 따라서 Tier 1과 Tier 2를 통과하는 모든 것에 대해, 저는 언어를 탐지하고 이를 영어로 번역한 뒤, 번역된 결과물에 대해 기존의 PAIR v4 의미론적 분류기(semantic classifier)를 실행합니다.

이 밑바탕에 깔린 통찰은 다음과 같습니다: 공격자는 언어는 숨길 수 있어도 의도(intent)는 숨길 수 없다는 것입니다. 번역은 표면적인 형태를 벗겨내고, 이미 영어에 매우 능숙한 분류기에 의미론적 페이로드(semantic payload)를 노출시킵니다. 공격은 옷을 갈아입을 수는 있어도, 무엇을 하려는지 그 본질은 바꿀 수 없습니다.

학습시키기: $300 GPU에서 13,528개의 예시 사용
탐지기는 자신이 본 것만큼만 성능을 발휘합니다. 저에게는 1,352개의 확실한 영어 공격 프롬프트가 있었지만, 다국어 프롬프트는 거의 없었습니다.

여기서 NLLB-200이 등장합니다 — Meta의 "No Language Left Behind" (arXiv:2207.04672)로, MultiJail이 식별한 바로 그 격차인 저자원 언어(low-resource languages)를 명시적으로 타겟팅하는 번역 모델입니다. 이는 Apache-2.0 라이선스이며, 증류된(distilled) 600M 파라미터 변체는 로컬에서 실행 가능합니다.

그래서 저는 1,352개의 모든 공격 프롬프트를 10개 언어(프랑스어, 스페인어, 독일어, 중국어, 아랍어, 힌디어, 일본어, 한국어, 터키어, 러시아어)로 번역하여 13,528개의 새로운 다국어 학습 예시를 생성했습니다. API도 사용하지 않았고, 프롬프트가 제 기기를 벗어나지도 않았으며, 서비스 약관(terms-of-service)의 회색 지대도 없었습니다.

증명하기 — 타인의 벤치마크를 사용하여
자신의 예제만으로 탐지기를 테스트하는 것은 스스로를 속이는 방식입니다. 그래서 저는 이 분야에서 실제로 사용하는 두 가지 벤치마크(benchmark), 즉 HarmBench (Mazeika et al., arXiv:2402.04249)와 JailbreakBench (Chao et al., arXiv:2404.01318)를 대상으로 테스트를 진행했습니다. 벤치마크 데이터에 대한 미세 조정 (fine-tuning) 없이, 완전히 오프라인 상태에서 수행되었습니다.

JailbreakBench (282개의 실제 공격): 재현율 (recall) 93.6% — JailbreakChat에서 100%, GCG 접미사 (suffixes)에서 90%, PAIR에서 90.2%.
HarmBench 화학/생물학: 100%. 사이버 공격/악성코드 (malware): 84.6%.
이 모든 일의 시작이었던 힌디어 프롬프트는? 공격 탐지됨 (ATTACK DETECTED), 다국어 주입 (multilingual injection)으로 분류되었습니다.

대부분의 게시물이 생략하는 부분
XSTest의 교훈이 찾아왔습니다. 재현율 (recall)은 상승했지만, 무해한 Stanford Alpaca 프롬프트에 대한 저의 오탐률 (false-positive rate, FPR)은 약 5%에서 약 27%로 조용히 퇴보했습니다. 원인은 화가 날 정도로 평범했습니다. scikit-learn이 1.6에서 1.7로 업데이트되면서 제 PAIR 분류기 (classifier)의 보정된 결정 경계 (calibrated decision boundary)가 이동한 것이었습니다. 저의 HarmBench 저작권 탐지율 또한 36%라는 낮은 수치에 머물러 있습니다.

저는 이 두 가지 모두를 공개적으로 기록하고 있으며 v1.15에서 수정할 예정입니다. 저는 방어할 수 없는 다듬어진 수치보다는, 원인을 알고 있는 실제 27%의 FPR을 발표하는 쪽을 택하겠습니다. LLM을 위한 정직성 계층 (honesty layer)을 구축하는 핵심 목적은 자기 자신에게도 동일한 기준을 적용하는 것이기 때문입니다.

내가 실제로 배운 것들
다국어 안전성 (Multilingual safety)은 예외적인 사례 (edge case)가 아니라 구조적인 격차입니다. 내가 이를 확인하기 전부터 관련 문헌들은 이미 그렇게 말하고 있었습니다. 먼저 읽고, 그 다음에 구축하십시오.
다양한 형태의 공격에는 서로 다른 센서가 필요합니다. 스크립트 이상 탐지 (script-anomaly check)와 의미론적 분류기 (semantic classifier)는 서로 다른 것을 잡아냅니다. 이들을 하나의 모델로 통합하면 두 가지 모두를 놓치게 됩니다.
번역은 레버리지 (leverage)입니다. 모든 언어에 대한 탐지기가 필요한 것이 아닙니다. 성능이 좋은 영어 탐지기 하나와 모든 것을 그곳으로 라우팅 (routing)할 방법이 필요할 뿐입니다.
로컬 오픈 웨이트 (open-weights) 모델로도 충분합니다. 노트북에서 실행한 NLLB-200은 상당한 예산이 필요할 것이라고 예상했던 작업을 수행해냈습니다.
승리뿐만 아니라 비용을 측정하십시오. 재현율 (recall)의 모든 이득에는 오탐 (false-positive)이라는 대가가 따릅니다.
FIE는 오픈 소스이며 pip로 설치 가능합니다: pip install fie-sdk. 다국어 계층 (multilingual layer), NLLB 증강 스크립트 (augmentation scripts), 그리고 벤치마크 하네스 (benchmark harnesses)는 모두 리포지토리 (repo)에 포함되어 있습니다.

참고 문헌
Deng et al. (2023). Multilingual Jailbreak Challenges in Large Language Models. arXiv:2310.06474
NLLB Team (2022). No Language Left Behind. arXiv:2207.04672
Röttger et al. (2023). XSTest. arXiv:2308.01263
Mazeika et al. (2024). HarmBench. arXiv:2402.04249
Chao et al. (2024). JailbreakBench. arXiv:2404.01318

당신의 LLM 가드레일은 영어를 사용하지만, 공격자는 그렇지 않습니다

요약

핵심 포인트

댓글