정교화를 통한 안전 타겟 임베딩 악용 (Safety Targeted Embedding Exploit via Refinement)

대규모 언어 모델 (LLMs)을 위한 안전 학습 (Safety training)은 주로 영어로 수행되며, 이로 인해 안전 메커니즘이 저자원 언어 (low-resource languages) 및 혼합 언어 코드 스위칭 (code-switching)에 얼마나 잘 일반화되는지는 불확실한 상태로 남아 있습니다. 우리는 이것이 모델이 안전 학습의 분포를 벗어난 입력에 대해 확신을 가지고 유해한 응답을 생성하게 만드는 인식론적 격차 (epistemic gap)를 생성함을 보여줍니다. 이 현상을 연구하기 위해, 우리는 STEER (Safety Targeted Embedding Exploit via Refinement)를 소개합니다. 이는 모델의 거부 행동 (refusal behavior)에 가장 강력하게 기여하는 단어를 식별하고, 유해한 의도는 유지하면서 거부를 억제하기 위해 해당 단어들을 저자원 언어로 반복적으로 번역하는 그래디언트 유도 공격 (gradient-guided attack)입니다. 6개의 오픈 소스 8B 파라미터 모델을 대상으로 실험한 결과, STEER는 JailbreakBench에서 최대 93.0%, AdvBench에서 96.7%의 공격 성공률을 달성하며 무작위 코드 스위칭 (random code-switching) 및 Greedy Coordinate Gradient (GCG)를 능가했습니다. 결과적으로 생성된 프롬프트는 GPT-4o-mini로도 전이되어, 대상 모델에 대한 접근 권한 없이도 35.5%의 공격 성공률을 달성했습니다. 이는 근본적인 취약점이 특정 아키텍처에 국한된 것이 아님을 시사합니다. 이러한 발견은 주로 영어에 맞춰 정렬된 (aligned) 안전 메커니즘이 다국어 입력 전반에 걸쳐 일반화될 것이라고 가정할 수 없음을 보여줍니다. 우리는 다국어 안전성을 향상시키기 위해서는 정렬 (alignment) 과정에서의 더 넓은 범위의 커버리지와, 분포 외 (out-of-distribution) 입력에 대해 명시적으로 탐지하고 거부하는 메커니즘이 필요하다고 주장합니다.

Insights

정교화를 통한 안전 타겟 임베딩 악용 (Safety Targeted Embedding Exploit via Refinement)

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실