arXiv논문2026. 06. 15. 08:03

배포된 안전 분류기를 위한 온라인 변화 탐지 및 Conformal 적응

요약

배포된 안전 분류기의 분포 변화를 실시간으로 탐지하고, Conformal 적응 기술을 통해 오차율을 회복하는 온라인 모니터링 시스템을 제안합니다. 실험 결과, 합성 데이터 및 실제 탈옥 공격 환경에서 높은 탐지율과 커버리지 회복 성능을 입증했습니다.

핵심 포인트

보정된 순차 통계량을 활용한 분포 외(OOD) 탐지 시스템 제시
Conformal 기권 레이어를 통한 결정 임계값의 동적 적응
실제 시간적 탈옥 및 GCG 적대적 공격에 대한 높은 탐지 성능
PCA를 통한 고차원 임베딩 붕괴 문제 해결 및 커버리지 회복

우리는 배포된 안전 분류기(safety classifiers)의 분포 변화(distributional shift)를 모니터링하기 위한 온라인 시스템을 제시하며, 보정된 순차 통계량(calibrated sequential statistics)을 사용하여 분류기가 분포 외(out of distribution)로 벗어나는 시점을 탐지합니다. 탐지 시, Conformal 기권 레이어(conformal abstention layer)가 결정 임계값(decision thresholds)을 적응시켜 목표 오차율 $\epsilon=0.1$을 회복합니다. 사전 등록된 요인 평가(4개의 분류기 $\times$ 5개의 변화 조건 $\times$ 20개의 시드 $\times$ 2개의 윈도우 크기, 총 800개 셀)에서, 이 시스템은 평균 지연 시간 39.5 스텝과 함께 86.6%의 유효 탐지율(693/800, 95% CI [84.1%, 88.8%])을 달성했습니다. 탐지 성능은 세 가지 실제 환경(ground-truth regimes)에서 유지되었습니다: 합성 발생(synthetic onset, 86.6%), 실제 시간적 탈옥(real temporal jailbreaks, 85%, 17/20), 그리고 GCG 적대적 공격(adversarial attacks). 가중 Conformal 예측(Weighted conformal prediction)은 DeBERTa(ESS=46/300)의 손실된 커버리지(coverage)를 최대 39 pp까지 회복하지만, 다른 모든 분류기(ESS $\sim$ 300)에 대해서는 붕괴(collapse)되었습니다. 로지스틱 밀도 비율 추정(logistic density ratio estimation)은 고차원 임베딩 공간에서 완벽한 소스/타겟 분리성을 달성하여, 모든 중요도 가중치(importance weights)를 최솟값으로 클리핑(clipping)하기 때문입니다. DeBERTa는 효과적인 교정(paraphrase, ESS=46)에서 거의 완전한 붕괴(adversarial suffix, ESS=206)에 이르는 경향을 보입니다. 32차원으로의 PCA는 이러한 붕괴를 깨뜨려, Llama Guard의 경우 33 pp, ShieldGemma의 경우 21 pp의 커버리지를 회복했습니다. 분산 분해(Variance decomposition) 결과, 분류기($\eta^2=0.243$), 변화 유형($\eta^2=0.237$), 그리고 이들의 상호작용($\eta^2=0.185$) 모두가 탐지 지연 시간 분산에 상당한 기여를 하는 것으로 나타났으며(모두 $p<0.001$), 이는 분류기별 모니터링 프로필이 필요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

배포된 안전 분류기를 위한 온라인 변화 탐지 및 Conformal 적응

요약

핵심 포인트

댓글