LASH: 대규모 언어 모델(LLM)의 블랙박스 탈옥을 위한 적응형 의미론적 하이브리드화
요약
LASH는 다양한 공격 전략을 적응적으로 결합하여 LLM의 안전 가드레일을 우회하는 블랙박스 탈옥 프레임워크입니다. 유전 알고리즘과 2단계 적합도 함수를 사용하여 대상 모델과 유해 카테고리에 최적화된 프롬프트를 생성합니다.
핵심 포인트
- 다양한 공격 시드를 적응적으로 혼합하는 LASH 프레임워크 제안
- 유전 알고리즘을 통한 블랙박스 최적화 및 2단계 적합도 함수 활용
- JailbreakBench 테스트 결과 기존 SOTA 모델 대비 높은 공격 성공률 달성
- 적은 쿼리 횟수로도 효율적인 블랙박스 레드팀 수행 가능
탈옥 (Jailbreak) 공격은 정렬된 대규모 언어 모델 (Large Language Models, LLMs)의 의도된 안전 동작과 적대적 프롬프팅 (Adversarial Prompting) 하에서의 동작 사이에 지속적인 격차가 있음을 드러냅니다. 기존의 자동화된 방법들은 점점 더 효과적으로 변하고 있지만, 각 방법은 단일 공격 계열 (예: 하나의 정제 루프, 하나의 트리 탐색, 하나의 변이 공간 또는 하나의 전략 라이브러리)에 국한되어 있으며, 어떤 단일 계열도 지배적이지 않습니다. 즉, 가장 성능이 좋은 방법은 대상 모델과 유해 카테고리에 따라 변하며, 이는 프롬프트당 구성 (per-prompt composition)을 통해 활용할 수 있는 상호 보완적인 강점이 있음을 시사합니다.
우리는 여러 기본 공격의 출력을 재사용 가능한 시드 프롬프트 (seed prompts)로 취급하고, 각 대상 요청에 대해 이를 적응적으로 구성하는 블랙박스 프레임워크인 LASH (LLM Adaptive Semantic Hybridization)를 소개합니다. 시드 풀 (seed pool)이 주어지면, LASH는 시드 서브셋 (seed subsets)과 소프트맥스 정규화된 혼합 가중치 (softmax-normalized mixture weights)를 탐색합니다. 구성 모듈 (composition module)은 단일 후보 프롬프트를 합성하며, 미분 불가능 유전 알고리즘 최적화기 (derivative-free genetic optimizer)는 블랙박스 대상 피드백과 키워드 기반 거부 탐지 및 LLM 심사관 (LLM-judge) 점수를 결합한 2단계 적합도 함수 (two-stage fitness function)를 사용하여 가중치를 업데이트합니다.
10개 카테고리에 걸쳐 100개의 유해 프롬프트를 포함하는 JailbreakBench에서, 우리는 6개의 일반적인 대상 모델을 대상으로 LASH를 평가합니다. LASH는 키워드 기반 평가에서 평균 84.5%, 2단계 평가에서 74.5%의 공격 성공률 (Attack Success Rate, ASR)을 달성했습니다. 2단계 평가에서는 응답이 먼저 거부 여부에 따라 필터링된 후, 원래의 유해한 요청을 실질적으로 충족하는지에 대해 LLM 심사관에 의해 점수가 매겨집니다. LASH는 평균 30회의 대상 쿼리만으로 두 지표 모두에서 5개의 최첨단 (state-of-the-art) 베이스라인 모델을 능가합니다. 또한 LASH는 세 가지 방어 메커니즘 하에서도 경쟁력을 유지하며, 더 많은 성공 유사 내부 표현 (success-like internal representations)을 유도합니다. 이러한 결과는 이질적인 탈옥 전략 간의 적응형 구성이 블랙박스 레드팀 (black-box red-teaming)을 위한 유망한 방향임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기