Zero-Shot 바이닝 비전-언어 안전 분류에서 프롬프트 유도 점수 분산
요약
본 논문은 제로샷(zero-shot) 비전-언어 모델(VLM)의 안전 분류에서 단일 프롬프트 기반 첫 토큰 확률 점수가 신뢰할 수 없음을 보여줍니다. 의미적으로 동등한 프롬프트를 사용하더라도, 같은 샘플에 대해 크게 다른 '안전하지 않은' 확률을 유도할 수 있습니다. 이러한 크로스-프롬프트 분산(cross-prompt variance)은 모델의 취약성을 진단하는 유용한 지표가 됩니다. 연구진은 훈련 없이 평균화한 임베딩(mean ensemble) 기법이 단일 프롬프트 기반 방식보다 성능을 개선하며, 이를 VLM 안전성 평가를 위한 표준적인 레이블 프리(label-free) 신뢰성 기준으로 제안합니다.
핵심 포인트
- 제로샷 VLM의 안전 분류 점수는 사용된 프롬프트에 매우 민감하여 신뢰성이 낮다.
- 프롬프트 간 분산(cross-prompt variance)은 모델 오류와 불일치 정도를 측정하는 유용한 '취약성 진단 지표'로 활용될 수 있다.
- 훈련 없이 여러 프롬프트의 평균을 내는 '평균 앙상블(mean ensemble)' 기법이 단일 프롬프트 방식보다 성능 향상을 가져온다.
- 제안된 평균화 접근 방식은 레이블링 기반 보정(calibration) 이전에 적용할 수 있는 강력한 레이블 프리 신뢰성 기준을 제공한다.
Single-prompt first-token probabilities from zero-shot vision-language model (VLM) safety classifiers are treated as decision scores, but we show they are unreliable under semantically equivalent prompt reformulation: even when the binary label is constrained to a fixed output position, equivalent prompts can induce materially different unsafe probabilities for the same sample. Across multimodal safety benchmarks and multiple VLM families, cross-prompt variance is strongly associated with prompt-level disagreement and higher error, making it a useful fragility diagnostic. A training-free mean ensemble improves NLL on all 14 dataset-model evaluation pairs and ECE on 12/14 relative to a train-selected single-prompt baseline, and wins more head-to-head NLL comparisons than labeled temperature scaling, Platt scaling, and isotonic regression applied to the same prompt. Ranking gains are consistent against the train-selected baseline on both AUROC and AUPRC, and against the full 15-prompt distribution remain consistent on AUPRC while softening on AUROC. Labeled calibration on top of the mean provides further gains when labels are available, identifying prompt averaging as a strong label-free first stage rather than a replacement for calibration. We frame this as a reliability stress test for zero-shot VLM first-token safety scores and recommend prompt-family evaluation with mean aggregation as a standard label-free reliability baseline.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기