BAIT: 자기 조건부 추론을 통한 경계 가이드형 정보 공개 에스컬레이션
요약
BAIT는 모델의 보호 경계를 단계적으로 식별하고 정교화하여 정보를 유출시키는 3단계 탈옥 프레임워크입니다. 실험 결과, 기존 베이스라인을 뛰어넘는 강력한 공격 성공률을 보이며 모델의 추론 능력을 역이용하는 방식을 입증했습니다.
핵심 포인트
- 3단계(식별-정교화-예시)를 통한 정보 공개 에스컬레이션 방식 제안
- 모델의 추론 능력과 일관성 유지 경향을 공격 경로로 활용
- 방지 중심 프레이밍이 직접적인 지식 요청보다 높은 성능 발휘
- 정교화 단계가 정보 유출 에스컬레이션의 핵심 역할 수행
- 주요 벤치마크(AdvBench 등)에서 최상위 LLM 대상 높은 공격 성공률 기록
본 연구에서는 내부적인 정보 공개를 통해 악의적인 목표에 접근하는 3단계 탈옥 (Jailbreak) 프레임워크인 BAIT (Boundary-Aware Iterative Trap)를 제안합니다. BAIT는 먼저 모델에게 보호 경계 (Protection Boundary)를 식별하도록 요청한 다음, 해당 경계를 정교화하도록 요구하며, 마지막으로 상세한 예시를 요청합니다. 각 단계를 모델의 이전 응답을 바탕으로 확장함으로써, BAIT는 모델 자체의 추론 (Reasoning) 능력과 일관성 유지 경향을 정보 공개 경로로 전환합니다. AdvBench, JailbreakBench, AIR-Bench, 그리고 SORRY-Bench를 이용한 실험 결과, BAIT는 최상위 거대 언어 모델 (LLM) 전반에 걸쳐 일관되게 강력한 공격 성공률을 달성하며 기존의 탈옥 베이스라인 (Baselines)을 크게 앞질렀음을 입증했습니다. 추가 분석을 통해 다음을 확인했습니다: 1) 방지 중심의 프레이밍 (Prevention-oriented framing)이 직접적인 지식 요청보다 훨씬 뛰어난 성능을 보입니다; 2) 정교화 (Refinement) 단계가 정보 공개 에스컬레이션 (Disclosure Escalation)에서 결정적인 역할을 합니다; 3) 처음 두 단계는 필터링을 거의 트리거하지 않으면서도 유해한 콘텐츠를 유도할 수 있는 일정 수준의 가능성을 가집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기