의미론적 코드북을 통한 다국어 제이브레이크 탐지
요약
본 연구는 대형 언어 모델(LLMs)의 안전 메커니즘이 영어 중심적이라는 취약점을 다루며, 다국어 환경에서의 제이브레이크 공격에 대한 새로운 방어책을 제시합니다. 기존 방식으로는 크로스-링글 보안 격차가 발생하지만, 본 연구는 재학습 없이 언어 불변적인 의미론적 유사성을 활용하여 영어 기반의 제이브레이크 코드북과 다국어 쿼리 임베딩을 비교하는 외부 방패 역할을 수행합니다. 실험 결과, 표준화된 벤치마크에서는 높은 분리성(AUC 최대 0.99)을 달성하며 공격 성공률을 크게 낮추었으나, 실제 환경의 분포 이동이 발생하는 비정형적인 안전하지 않은 벤치마크에서는 성능 저하가 관찰되었습니다.
핵심 포인트
- LLMs의 안전 메커니즘은 영어 중심적이며, 이는 다국어 배포 시 구조적인 보안 취약점을 야기한다.
- 제안된 접근 방식은 언어 불변적인 의미론적 유사성을 활용하여 외부 방패 역할을 수행하며, LLM 재학습 없이도 적용 가능하다.
- 표준화된 벤치마크 환경에서는 높은 분리성(AUC ≈ 0.99)을 달성하며 제이브레이크 공격에 대한 강력한 방어력을 입증했다.
- 실제 분포 이동이 발생하는 비정형적인 안전하지 않은 벤치마크에서는 성능 저하가 발생하여, 실제 환경 적용 시 추가 연구가 필요함을 시사한다.
대형 언어 모델 (LLMs) 의 안전 메커니즘은 여전히 영어 중심에 치중되어 있어, 다국어 배포 시 체계적인 취약점을 초래합니다. 기존 연구는 악성 프롬프트를 다른 언어로 번역하면 제이브레이크 성공률이 크게 증가하여 구조적인 크로스-링글 보안 격차를 드러낸다고 보여줍니다. 우리는 재학습이나 특정 언어 적응 없이 언어 불변적 (language-agnostic) 인 의미론적 유사성을 통해 이러한 공격을 완화할 수 있는지 조사합니다. 우리의 접근법은 고정된 영어 제이브레이크 프롬프트 코드북에 대해 다국어 쿼리 임베딩을 비교하며, 블랙박스 LLM 을 위한 훈련 없는 외부 방패 역할을 수행합니다. 우리는 네 가지 언어, 두 가지 번역 파이프라인, 네 가지 안전 벤치마크, 세 가지 임베딩 모델, 그리고 세 가지 대상 LLM(Qwen, Llama, GPT-3.5) 에 대해 체계적인 평가를 수행했습니다. 우리의 결과는 크로스-링글 전이 (cross-lingual transfer) 의 두 가지 뚜렷한 체제를 드러냅니다. 정제된 벤치마크에서 표준 제이브레이크 템플릿을 포함할 때, 의미론적 유사성은 언어 간에 신뢰성 있게 일반화되어 거의 완벽한 분리성 (AUC 최대 0.99) 을 달성하며, 엄격한 낮은 위양성률 제약 하에서 절대 공격 성공률을 현저히 감소시킵니다. 그러나 분포 이동 (distribution shift) - 행동적으로 다양하고 이질적인 안전하지 않은 벤치마크에서 - 분리성은 현저히 저하되며 (AUC ≈ 0.60-0.70), 보안상 중요한 낮은 위양성률 (low-FPR) 영역에서의 재현율은 모든 임베딩 모델에서 감소합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기