정교화를 통한 안전 타겟 임베딩 악용 (Safety Targeted Embedding Exploit via Refinement)
요약
LLM의 안전 학습이 영어 중심이라 저자원 언어나 코드 스위칭 상황에서 취약하다는 점을 지적합니다. STEER 공격 기법을 통해 유해한 의도를 유지하면서 거부 반응을 억제하는 방식의 공격 성공률을 입증했습니다.
핵심 포인트
- 영어 중심 안전 학습의 다국어 일반화 한계 발견
- STEER: 단어 번역을 통한 그래디언트 유도 공격 기법 제안
- 오픈 소스 8B 모델 대상 최대 96.7%의 공격 성공률 달성
- 공격 프롬프트가 GPT-4o-mini로도 전이되는 취약성 확인
- 다국어 안전성 향상을 위한 정렬 범위 확대 필요성 강조
대규모 언어 모델 (LLMs)을 위한 안전 학습 (Safety training)은 주로 영어로 수행되며, 이로 인해 안전 메커니즘이 저자원 언어 (low-resource languages) 및 혼합 언어 코드 스위칭 (code-switching)에 얼마나 잘 일반화되는지는 불확실한 상태로 남아 있습니다. 우리는 이것이 모델이 안전 학습의 분포를 벗어난 입력에 대해 확신을 가지고 유해한 응답을 생성하게 만드는 인식론적 격차 (epistemic gap)를 생성함을 보여줍니다. 이 현상을 연구하기 위해, 우리는 STEER (Safety Targeted Embedding Exploit via Refinement)를 소개합니다. 이는 모델의 거부 행동 (refusal behavior)에 가장 강력하게 기여하는 단어를 식별하고, 유해한 의도는 유지하면서 거부를 억제하기 위해 해당 단어들을 저자원 언어로 반복적으로 번역하는 그래디언트 유도 공격 (gradient-guided attack)입니다. 6개의 오픈 소스 8B 파라미터 모델을 대상으로 실험한 결과, STEER는 JailbreakBench에서 최대 93.0%, AdvBench에서 96.7%의 공격 성공률을 달성하며 무작위 코드 스위칭 (random code-switching) 및 Greedy Coordinate Gradient (GCG)를 능가했습니다. 결과적으로 생성된 프롬프트는 GPT-4o-mini로도 전이되어, 대상 모델에 대한 접근 권한 없이도 35.5%의 공격 성공률을 달성했습니다. 이는 근본적인 취약점이 특정 아키텍처에 국한된 것이 아님을 시사합니다. 이러한 발견은 주로 영어에 맞춰 정렬된 (aligned) 안전 메커니즘이 다국어 입력 전반에 걸쳐 일반화될 것이라고 가정할 수 없음을 보여줍니다. 우리는 다국어 안전성을 향상시키기 위해서는 정렬 (alignment) 과정에서의 더 넓은 범위의 커버리지와, 분포 외 (out-of-distribution) 입력에 대해 명시적으로 탐지하고 거부하는 메커니즘이 필요하다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기