본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 23:27

RefusalBench: 생물학 연구 프롬프트에서 거절률이 Frontier LLM의 순위를 잘못 매기는 이유

요약

생물학 연구 프롬프트에서 LLM의 거절 행동을 분석하는 새로운 벤치마크인 RefusalBench를 소개합니다. 기존의 단순 거절률 지표가 모델의 실제 안전 교정 능력을 왜곡할 수 있음을 지적하며, 모델 제공자별 특성과 계층별 판별력을 분석합니다.

핵심 포인트

  • RefusalBench는 생물학적 위험 계층에 따른 모델의 거절 행동을 비교합니다.
  • 단순 거절률은 모델의 실제 안전 교정 순위를 잘못 매길 수 있습니다.
  • Anthropic 모델은 표준 거절 템플릿을 사용하는 액세스 경로 특성을 보입니다.
  • 일부 모델은 이중 용도 위험에 대해 '회피하되 도움을 주는' 패턴을 보입니다.

Frontier 대규모 언어 모델 (Large Language Models, LLMs)은 생물학 연구 워크플로우를 위한 오케스트레이션 백본 (orchestration backbones)으로 점점 더 많이 배치되고 있지만, 정당한 연구 프롬프트에 대한 이들의 거절 행동 (refusal behaviour)을 비교할 수 있는 공유된 증거 기반은 존재하지 않습니다. 여기서 소개하는 RefusalBench는 47개의 번들로 구성된 141개의 프롬프트 매치드 트리플 (matched-triple) 벤치마크로, 작업 프레임 (task framing)은 일정하게 유지하면서 생물학적 위험 계층 (biological risk tier: benign, borderline, dual-use)만을 변화시켜, 하위 도메인 혼란 변수 (subdomain confounding)에 강건한 계층 조건부 비교를 가능하게 합니다. 15개의 프롬프트로 구성된 '거절해야 함 (should-refuse)' 양성 대조군 (positive-control) 모듈은 모델별 교정 하한선 (calibration floors)을 설정하며, 세 개의 모델은 이 프롬프트들조차 거절하는 데 실패했습니다. 2026년 5월 스냅샷 기준 19개의 Frontier 모델 전반에 걸쳐, 동일한 프롬프트에 대한 엄격한 거절률 (strict refusal rates)은 0.1%에서 94.6%까지 분포합니다. 이 스냅샷에서 관할권 (Jurisdiction)은 거절을 예측하지 못했습니다 (Mann-Whitney U, p = 0.393; EU n = 1, US bimodal). 반면 제공자 정체성 (provider identity)은 예측 가능했으며, Anthropic의 API 스택은 OR = 21.03 (95% CI: 프롬프트 클러스터링 시 14.58-30.34; 모델 클러스터링 GEE 적용 시 5.70-77.55)의 오즈비 (Odds Ratio)로 거절을 예측했습니다. 이 효과는 모델 가중치 (model-weight) 수준이라기보다 액세스 경로 (access-path) 수준으로 해석하는 것이 가장 적절합니다. Anthropic의 엄격한 거절 중 99.8%는 동일한 safety_policy 판정 사유 코드를 포함하고 있으며, 이는 사례별 모델 추론 (case-by-case model reasoning)보다는 소수의 표준 거절 템플릿 (canonical refusal templates)과 일치합니다. 엄격한 거절률은 안전 교정 (safety calibration) 순위를 잘못 매깁니다. Grok 4.20은 전체 거절률로는 7위에 불과하지만 가장 높은 계층 판별력 (Youden's J = 0.787)을 달성한 반면, Claude Opus 4.7의 J 값은 이전 버전보다 65% 감소했으며 이중 용도 (dual-use) 탐지 능력은 개선되지 않았습니다. 18개의 Frontier 모델 중 9개는 이중 용도 계층에서 이진 거절 지표 (binary refusal metrics)로는 감지할 수 없는 '회피하되 도움을 주는 (hedge-but-help)' 부분 준수 패턴을 보입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0