Zero-Shot 이진 비전-언어 안전 분류에서 프롬프트 유도 점수 분산

제로샷(zero-shot) 비전-언어 모델(VLM) 안전 분류기에서 얻은 단일 프롬프트 첫 토큰 확률(first-token probabilities)을 결정 점수(decision scores)로 사용하지만, 우리는 이 점수들이 의미적으로 동등한 프롬프트 재구성(semantically equivalent prompt reformulation) 하에서는 신뢰할 수 없음을 보여줍니다. 심지어 이진 레이블(binary label)이 고정된 출력 위치로 제한되더라도, 동등한 프롬프트들은 동일한 샘플에 대해 실질적으로 다른 안전하지 않은 확률(unsafe probabilities)을 유도할 수 있습니다. 여러 멀티모달 안전 벤치마크와 다양한 VLM 계열 전반에 걸쳐, 크로스-프롬프트 분산(cross-prompt variance)은 프롬프트 수준의 불일치(prompt-level disagreement) 및 더 높은 오류율과 강하게 연관되어 있어 유용한 취약성 진단 지표(fragility diagnostic)가 됩니다. 훈련이 필요 없는 평균 앙상블(training-free mean ensemble)은 모든 14개 데이터셋-모델 평가 쌍에서 NLL(Negative Log-Likelihood)을 개선하고, 12/14에서 ECE(Expected Calibration Error)를 개선하여 훈련 선택된 단일 프롬프트 기준선(train-selected single-prompt baseline) 대비 우위를 점하며, 동일한 프롬프트에 적용된 레이블링 온도 스케일링(labeled temperature scaling), 플랫 스케일링(Platt scaling), 등각 회귀(isotonic regression)보다 더 많은 1:1 NLL 비교에서 승리합니다. 순위 향상(Ranking gains)은 AUROC와 AUPRC 모두에서 훈련 선택된 기준선 대비 일관성을 보이며, 전체 15개 프롬프트 분포 대비로는 AUPRC에서 일관성을 유지하는 반면 AUROC에서는 다소 완만해집니다. 평균값 위에 레이블링을 수행한 경우(Labeled calibration on top of the mean) 라벨이 사용 가능할 때 추가적인 이득을 제공하며, 이를 프롬프트 평균화가 보정(calibration)의 대체재라기보다는 강력한 라벨 프리(label-free) 초기 단계임을 보여줍니다. 우리는 이를 제로샷 VLM 첫 토큰 안전 점수에 대한 신뢰성 스트레스 테스트(reliability stress test)로 규정하고, 표준적인 라벨 프리 신뢰성 기준선으로서 평균 집계가 적용된 프롬프트 패밀리 평가를 권장합니다.

Insights

Zero-Shot 이진 비전-언어 안전 분류에서 프롬프트 유도 점수 분산

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화