arXiv논문2026. 05. 05. 16:34

ContextualJailbreak: 시뮬레이션 대화적 프라임링을 통한 진화적 레드팀링

요약

본 논문은 LLM의 안전 정렬을 우회하는 공격에 취약점을 보이는 현황을 진단하고, 이를 극복하기 위한 새로운 블랙박스 레드팀링 전략인 ContextualJailbreak을 제안합니다. 이 방법론은 시뮬레이션 다중 턴 프라임된 대화를 대상으로 진화적 탐색을 수행하며, 두 단계 판정자로부터 받은 해악 점수를 인루프 신호로 활용하여 공격 과정을 안내하고 최적화합니다. 실험 결과, ContextualJailbreak은 다양한 모델에서 기존의 단일/다중 턴 베이스라인 대비 높은 ASR(Adversarial Success Rate)을 달성하며, 발견된 취약점들이 다른 상용 모델에서도 전이됨을 입증했습니다.

핵심 포인트

LLM은 초기 대화 흐름에 의해 편향되는 '컨텍츄얼 프라임링' 공격에 특히 취약하다.
제안된 ContextualJailbreak은 시뮬레이션 다중 턴 대화를 대상으로 진화적 탐색을 수행하는 블랙박스 레드팀링 전략이다.
이 방법론은 두 단계 판정자로부터 받은 해악 점수를 활용하여 공격 과정을 반복적으로 최적화한다.
ContextualJailbreak은 다양한 모델에서 높은 적대적 성공률(ASR)을 달성하며, 발견된 취약점의 전이성을 보여준다.

대규모 언어 모델 (LLMs) 은 안전 정렬을 우회하고 해로운 응답을 유도하는 제이브레이크 공격에 여전히 취약합니다. 최근 연구들은 초기 턴이 후속 답변을 암묵적으로 편향시키는 '컨텍츄얼 프라임링'이 강력한 공격 표면임을 보여주며, 수작업 다중 턴 스펀드가 능력 있는 모델에서 단일 턴 조작보다 일관되게 더 좋은 성능을 발휘합니다. 그러나 자동화된 최적화 기반 레드팀링은 여전히 단일 턴 설정에 제한되어 있으며, 고정된 프롬프트를 반복하고 대화적 프라임링의 어떤 형태가 복종성을 유도하는지 추론할 능력이 부족합니다. 최근 다중 턴 검색 기반 접근법이 이 격차를 해소하기 시작했지만, 효과적인 프라임된 대화의 underlying(mutator) 설계 공간은 여전히 거의 탐구되지 않았습니다. 우리는 시뮬레이션 다중 턴 프라임된 대화를 대상으로 진화적 탐색을 수행하는 블랙박스 레드팀링 전략인 ContextualJailbreak 을 제시합니다. 이 전략은 두 단계 판정자로부터 등급화된 0-5 해악 점수를 인루프 신호로 활용하여, 부분적으로 해로운 응답이 검색 과정을 안내하도록 하고 폐기되도록 합니다. 검색은 역할극 (roleplay), 시나리오 (scenario), 확장 (expand), 문제 해결 (troubleshooting), 기제론적 (mechanistic) 의 5 가지 의미론적으로 정의된 변형 연산자에 의해 주도되며, 마지막 두 가지는 본 작업의 새로운 기여입니다. 50 개 대표적 HarmBench 행동에 걸쳐 ContextualJailbreak 은 gpt-oss:20B 에서 ASR 을 100%, qwen3-8B 에서 100%, llama3.1:70B 에서 100%, gpt-oss:120B 에서 90% 를 달성하여 단일 턴 및 다중 턴 베이스라인에 비해 평균적으로 31~96 퍼센트 포인트를 초과합니다. gpt-oss:120B 에 대해 발견된 40 개의 최대 해악 공격은 폐쇄 프론티어 모델에 적응 없이 전이되며, gpt-4o-mini 에서 90.0%, gpt-5 에서 70.0%, gemini-3-flash 에서 70.0% 를 달성하지만 claude-opus-4-7 은 17.5%, claude-sonnet-4-6 은 15.0% 만으로, 정렬 견고성에서 뚜렷한 제공자 수준 비대칭성을 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

ContextualJailbreak: 시뮬레이션 대화적 프라임링을 통한 진화적 레드팀링

요약

핵심 포인트

댓글