arXiv논문2026. 06. 25. 11:21

당신의 탈옥 판정관(Jailbreak Judge)은 얼마나 신뢰할 수 있는가? 자동화된 ASR 점수의 보정(Calibration) 및 적대적

요약

LLM 탈옥 및 프롬프트 주입 판정에 사용되는 자동화된 판정관(Automated Judge)의 신뢰성을 검증한 연구입니다. 전용 분류기와 LLM-as-a-judge가 각각 과잉 탐지 및 불안정한 재현율 문제를 겪으며, 적대적 공격에 취약함을 밝혀냈습니다.

핵심 포인트

자동화된 판정관의 ASR 수치는 판정관 종류에 따라 매우 상이함
LLM-as-a-judge는 무해한 프레임 추가 시 판정 결과가 쉽게 뒤집힘
전용 분류기는 화이트박스 GCG 공격에 취약하여 유해성을 놓칠 수 있음
ASR 보고 시 판정관의 정밀도 보정 및 적대적 검사 권장

LLM 탈옥(Jailbreak) 및 프롬프트 주입(Prompt Injection)에 관한 거의 모든 논문은 공격 성공률(Attack-Success Rate, ASR)을 보고하며, 이 수치는 사람이 아닌 자동화된 판정관(Automated Judge)에 의해 할당됩니다. 판정관은 해당 작업을 위해 학습된 안전 분류기(Safety Classifier)이거나, 채점을 하도록 프롬프트가 제공된 범용 채팅 모델(General Chat Model)입니다. 하지만 판정관에 대한 검증은 거의 이루어지지 않습니다. 우리는 이를 검증합니다. HarmBench 분류기 검증 세트에서 추출한 596개의 인간 라벨링 완료 문구(Human-labeled completions)를 사용하여, 두 가지 판정관 계열을 인간의 다수결 투표와 비교한 후 이들을 공격합니다. 두 계열은 서로 반대되는 방식으로 실패합니다. 전용 분류기(Dedicated Classifier)는 과잉 탐지(Over-flags)를 수행하며(정밀도(Precision) 0.835, 재현율(Recall) 0.974), 세 가지 서로 다른 LLM-as-judges는 높은 정밀도(0.81 ~ 0.94)를 유지하지만 불안정한 재현율(0.06 ~ 0.65)을 보입니다. 따라서 동일한 응답이라도 어떤 판정관이 점수를 매기느냐에 따라 매우 다른 ASR이 생성됩니다. 또한 두 계열은 강건성(Robustness) 측면에서도 극명한 차이를 보입니다. 유해한 텍스트는 건드리지 않고 무해한 프레임(Benign Framing)만 추가하는 래퍼(Wrappers)를 사용할 경우, 모든 LLM-judge가 57%에서 100% 사이의 확률로 판정을 뒤집습니다. 특히 문장 앞에 거절 문구 하나를 추가하는 것만으로도 이러한 현상의 상당 부분(39% ~ 88%)이 발생합니다. 전용 분류기는 이러한 표면적인 공격에는 저항하지만(최대 6.7%), 오픈 가중치(Open Weights)에 대한 화이트박스 GCG 공격은 작은 최적화 예산(Optimization Budget)에서도 확신을 가진 참 양성(Confident True Positives)의 70%(30개 중 21개; 95% 신뢰 구간 54 ~ 86%)를 뒤집습니다. 두 명의 주석가(Annotator)가 수행한 감사 결과, 이러한 공격이 유해성을 그대로 유지하고 있음이 확인되었습니다. 샘플링된 80개의 뒤집힌 사례 모두 여전히 유해한 콘텐츠를 포함하고 있었습니다. 보고되는 ASR 중 크고 증가하는 비중이 LLM-judges로부터 나오기 때문에, 많은 수치가 평균적으로나 의도적인 압박 하에서나 신뢰할 수 없습니다. 우리는 논문에서 인간이 라벨링한 데이터 일부에 대해 판정관의 정밀도와 재현율을 보고할 것, 판정관의 정밀도를 보정한 ASR을 보고할 것, 그리고 판정관에 대한 적대적 검사(Adversarial Check)를 포함할 것을 권장합니다. 우리의 코드는 공개되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신의 탈옥 판정관(Jailbreak Judge)은 얼마나 신뢰할 수 있는가? 자동화된 ASR 점수의 보정(Calibration) 및 적대적

요약

핵심 포인트

댓글