DoubtProbe: 구조적 검증 및 의미론적 감사를 통한 블랙박스 탈옥 방어
요약
DoubtProbe는 구조적 검증과 의미론적 감사를 결합하여 LLM의 블랙박스 탈옥 공격을 방어하는 새로운 프레임워크입니다. 프롬프트의 구조적 일관성을 검사함으로써 진화하는 공격 기법에 대해 강력하고 안정적인 방어 성능을 제공합니다.
핵심 포인트
- 구조적 검증과 의미론적 감사를 결합한 이중 분기 추론 방식 제안
- 프롬프트 재구성 시 발생하는 정보 보존 실패를 탐지하여 탈옥 방어
- Qwen2.5 및 Llama-3.1 모델에서 높은 방어 성능과 낮은 오탐률 입증
- 기존 방어 기제 대비 강력한 방어-유용성 트레이드오프 달성
대규모 언어 모델 (LLMs)이 사용자 대상 시스템에 점점 더 많이 배치됨에 따라, 블랙박스 탈옥 (black-box jailbreak) 방어는 중요한 실무적 문제가 되었습니다. 기존의 방어 기제들은 종종 알려진 공격 범위 (known-attack coverage), 프롬프트 수준의 의미론적 판단 (prompt-level semantic judgment), 또는 로컬 런타임 제어 (local runtime control)에 의존하지만, 이러한 방식들은 진화하는 프롬프트 패키징 (prompt packaging), 표현 재작성 (expression rewriting), 그리고 구조 조작 (structure manipulation) 하에서 불안정해질 수 있습니다. 우리는 많은 블랙박스 탈옥이 유해한 목표를 제거하는 것이 아니라, 이를 표현하고 실행하는 데 필요한 정보를 재구성함으로써 안전 정렬 (safety alignment)을 회피하면서도 생성 과정 중에는 복구가 가능한 상태로 유지된다는 점을 관찰했습니다. 이러한 관찰에 착안하여, 우리는 구조적 검증 (structural verification)과 의미론적 감사 (semantic auditing)를 결합하고, 블랙박스 탈옥 방어를 통제된 변환 하에서의 일관성 검사 (consistency checking)로 공식화하는 이중 분기 추론 시점 방어 프레임워크인 DoubtProbe를 제안합니다. 구조적 분기 (structural branch)는 원본 요청에서 구조화된 표현 (structured representation)을 추출하고, 표현 제약 조건 하에서 요청을 재구성하며, 원본 요청과 재구성된 요청 사이의 정보 보존 실패 (information-preservation failures)를 탐지합니다. 의미론적 분기 (semantic branch)는 원본 프롬프트를 직접 감사합니다. 우리는 탈옥 및 양성 요청 (benign-request) 벤치마크에서 대표적인 블랙박스 방어 기제들을 대상으로 DoubtProbe를 평가하였으며, 나아가 Qwen2.5-72B에서 Llama-3.1-70B로의 백본 전이 (backbone transfer)를 테스트했습니다. 결과에 따르면 DoubtProbe는 더 강력하고 안정적인 방어-유용성 트레이드오프 (defense-utility trade-off)를 달성합니다. Qwen2.5-72B에서 JBB 공격 성공률을 0.293에서 0.100으로, CodeAttack 공격 성공률을 0.152에서 0.001로 낮추는 동시에, AlpacaEval 및 OR-Bench에서 0.022와 0.016의 오탐률 (false positive rates)을 유지했습니다. 동일한 패턴이 Llama-3.1-70B에서도 안정적으로 유지되었습니다. 이러한 발견은 구조적 불일치 신호 (structural inconsistency signals)가 특히 의미론적 감사와 결합될 때, 블랙박스 탈옥 방어를 위한 실용적이고 일반화 가능한 기반을 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기