평범한 일반인을 위한 탈옥 (Jailbreaking): 밴딧 알고리즘 (Bandit Algorithms)을 통한 자동 강화된 쿼리 및 최적의
요약
비전문가도 밴딧 알고리즘을 통해 LLM의 탈옥(Jailbreak)을 자동화할 수 있다는 연구 결과를 발표했습니다. 새로운 공격 전략과 함께 대규모 안전성 벤치마크인 FrankensteinBench를 구축하여 모델의 취약성을 입증했습니다.
핵심 포인트
- 멀티 암드 밴딧 프레임워크를 활용한 효율적인 탈옥 쿼리 생성 전략 제안
- 11,279개의 악의적 쿼리로 구성된 FrankensteinBench 구축
- SoTA 오픈 웨이트 LLM 대상 평균 최대 97%의 공격 성공률 달성
- 쿼리 복잡도 증가 시 공격 성공률이 최대 26% 추가 상승함 확인
LLM(대규모 언어 모델)을 위한 수많은 탈옥 (jailbreak) 방식들이 널리 알려짐에 따라, 전문가가 아닌 악의적 행위자("the average Jane")가 악의적인 요청에 대해 실행 가능한 응답을 이끌어낼 수 있다는 우려가 커지고 있습니다. 본 연구에서는 이러한 우려가 타당한지 조사합니다. 비전문가 악의적 행위자가 공격에 성공하기 위해서는 두 가지 요소가 필요합니다: 효과적인 악의적 쿼리 (malicious query)를 바탕으로 대상 모델에 작용하는 강력한 탈옥 (jailbreak)입니다. 전자를 위해, 우리는 멀티 암드 밴딧 (multi-armed bandit) 프레임워크에 기반한 새로운 공격 전략을 제안합니다. 이를 통해 적은 수의 쿼리에 대한 노이즈가 있는 탐색 (noisy exploration)을 거쳐, 방대한 선택지로부터 최적의 탈옥을 효율적으로 온라인 학습 (online learning)할 수 있으며, 이후 학습된 정책을 활용 (exploitation) 세트에 적용할 수 있습니다. 후자를 위해, 우리는 7개의 기존 벤치마크를 수동으로 큐레이션하고 자동화된 강화 및 생성을 거쳐 추출한 11,279개의 악의적 쿼리로 구성된 안전성 벤치마크인 $\mathrm{FrankensteinBench}$를 구축했습니다. 각 쿼리는 이를 작성하는 데 필요한 기술적 전문성에 따라 단순하거나 복잡한 것으로 분류됩니다. 우리의 연구 결과는 이러한 우려가 사실임을 확인해 줍니다. 우리의 밴딧 (bandit) 기반 공격은 15개의 최첨단 (SoTA) 오픈 웨이트 (open-weight) LLM에 대해 평균적으로 최대 97%의 성공률을 달성했습니다. 또한, 쿼리에 복잡성을 더하면 모델 전반에 걸쳐 평균적으로 공격 성공률이 최대 26%까지 상승하며, 이는 이를 효과적이고 자동화 가능한 프롬프팅 (prompting) 전략으로 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기