LASH: 대규모 언어 모델(LLM)의 블랙박스 탈옥을 위한 적응형 의미론적 하이브리드화

탈옥 (Jailbreak) 공격은 정렬된 대규모 언어 모델 (Large Language Models, LLMs)의 의도된 안전 동작과 적대적 프롬프팅 (Adversarial Prompting) 하에서의 동작 사이에 지속적인 격차가 있음을 드러냅니다. 기존의 자동화된 방법들은 점점 더 효과적으로 변하고 있지만, 각 방법은 단일 공격 계열 (예: 하나의 정제 루프, 하나의 트리 탐색, 하나의 변이 공간 또는 하나의 전략 라이브러리)에 국한되어 있으며, 어떤 단일 계열도 지배적이지 않습니다. 즉, 가장 성능이 좋은 방법은 대상 모델과 유해 카테고리에 따라 변하며, 이는 프롬프트당 구성 (per-prompt composition)을 통해 활용할 수 있는 상호 보완적인 강점이 있음을 시사합니다.

우리는 여러 기본 공격의 출력을 재사용 가능한 시드 프롬프트 (seed prompts)로 취급하고, 각 대상 요청에 대해 이를 적응적으로 구성하는 블랙박스 프레임워크인 LASH (LLM Adaptive Semantic Hybridization)를 소개합니다. 시드 풀 (seed pool)이 주어지면, LASH는 시드 서브셋 (seed subsets)과 소프트맥스 정규화된 혼합 가중치 (softmax-normalized mixture weights)를 탐색합니다. 구성 모듈 (composition module)은 단일 후보 프롬프트를 합성하며, 미분 불가능 유전 알고리즘 최적화기 (derivative-free genetic optimizer)는 블랙박스 대상 피드백과 키워드 기반 거부 탐지 및 LLM 심사관 (LLM-judge) 점수를 결합한 2단계 적합도 함수 (two-stage fitness function)를 사용하여 가중치를 업데이트합니다.

10개 카테고리에 걸쳐 100개의 유해 프롬프트를 포함하는 JailbreakBench에서, 우리는 6개의 일반적인 대상 모델을 대상으로 LASH를 평가합니다. LASH는 키워드 기반 평가에서 평균 84.5%, 2단계 평가에서 74.5%의 공격 성공률 (Attack Success Rate, ASR)을 달성했습니다. 2단계 평가에서는 응답이 먼저 거부 여부에 따라 필터링된 후, 원래의 유해한 요청을 실질적으로 충족하는지에 대해 LLM 심사관에 의해 점수가 매겨집니다. LASH는 평균 30회의 대상 쿼리만으로 두 지표 모두에서 5개의 최첨단 (state-of-the-art) 베이스라인 모델을 능가합니다. 또한 LASH는 세 가지 방어 메커니즘 하에서도 경쟁력을 유지하며, 더 많은 성공 유사 내부 표현 (success-like internal representations)을 유도합니다. 이러한 결과는 이질적인 탈옥 전략 간의 적응형 구성이 블랙박스 레드팀 (black-box red-teaming)을 위한 유망한 방향임을 시사합니다.

Insights

LASH: 대규모 언어 모델(LLM)의 블랙박스 탈옥을 위한 적응형 의미론적 하이브리드화

요약

핵심 포인트

댓글

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.