arXiv논문2026. 06. 26. 11:09

평범한 일반인을 위한 탈옥 (Jailbreaking): 밴딧 알고리즘 (Bandit Algorithms)을 통한 자동 강화된 쿼리 및 최적의

요약

비전문가도 밴딧 알고리즘을 통해 LLM의 탈옥(Jailbreak)을 자동화할 수 있다는 연구 결과를 발표했습니다. 새로운 공격 전략과 함께 대규모 안전성 벤치마크인 FrankensteinBench를 구축하여 모델의 취약성을 입증했습니다.

핵심 포인트

멀티 암드 밴딧 프레임워크를 활용한 효율적인 탈옥 쿼리 생성 전략 제안
11,279개의 악의적 쿼리로 구성된 FrankensteinBench 구축
SoTA 오픈 웨이트 LLM 대상 평균 최대 97%의 공격 성공률 달성
쿼리 복잡도 증가 시 공격 성공률이 최대 26% 추가 상승함 확인

LLM(대규모 언어 모델)을 위한 수많은 탈옥 (jailbreak) 방식들이 널리 알려짐에 따라, 전문가가 아닌 악의적 행위자("the average Jane")가 악의적인 요청에 대해 실행 가능한 응답을 이끌어낼 수 있다는 우려가 커지고 있습니다. 본 연구에서는 이러한 우려가 타당한지 조사합니다. 비전문가 악의적 행위자가 공격에 성공하기 위해서는 두 가지 요소가 필요합니다: 효과적인 악의적 쿼리 (malicious query)를 바탕으로 대상 모델에 작용하는 강력한 탈옥 (jailbreak)입니다. 전자를 위해, 우리는 멀티 암드 밴딧 (multi-armed bandit) 프레임워크에 기반한 새로운 공격 전략을 제안합니다. 이를 통해 적은 수의 쿼리에 대한 노이즈가 있는 탐색 (noisy exploration)을 거쳐, 방대한 선택지로부터 최적의 탈옥을 효율적으로 온라인 학습 (online learning)할 수 있으며, 이후 학습된 정책을 활용 (exploitation) 세트에 적용할 수 있습니다. 후자를 위해, 우리는 7개의 기존 벤치마크를 수동으로 큐레이션하고 자동화된 강화 및 생성을 거쳐 추출한 11,279개의 악의적 쿼리로 구성된 안전성 벤치마크인 $\mathrm{FrankensteinBench}$를 구축했습니다. 각 쿼리는 이를 작성하는 데 필요한 기술적 전문성에 따라 단순하거나 복잡한 것으로 분류됩니다. 우리의 연구 결과는 이러한 우려가 사실임을 확인해 줍니다. 우리의 밴딧 (bandit) 기반 공격은 15개의 최첨단 (SoTA) 오픈 웨이트 (open-weight) LLM에 대해 평균적으로 최대 97%의 성공률을 달성했습니다. 또한, 쿼리에 복잡성을 더하면 모델 전반에 걸쳐 평균적으로 공격 성공률이 최대 26%까지 상승하며, 이는 이를 효과적이고 자동화 가능한 프롬프팅 (prompting) 전략으로 만듭니다.

AI 자동 생성 콘텐츠

원문 바로가기

평범한 일반인을 위한 탈옥 (Jailbreaking): 밴딧 알고리즘 (Bandit Algorithms)을 통한 자동 강화된 쿼리 및 최적의

요약

핵심 포인트

댓글