When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without
요약
본 기사는 기존의 라벨링된 벤치마크가 없는 상황에서 여러 LLM의 안전성을 비교 평가하는 방법론을 제시합니다. 이 '라벨 없는 비교 안전 점수(benchmarkless comparative safety scoring)'는 고정된 시나리오, 평가 기준, 감사자/판사 등의 엄격한 조건 하에만 유효하며, 단순 응답성 측정 대신 목표 기반 분산 우위 및 재실행 안정성을 핵심 지표로 사용합니다. 이를 통해 실제 공공 부문 조달 사례(노르웨이)를 검증하고, 안전성이 모델의 시나리오 카테고리 및 위험 측정에 따라 달라지므로 단일 점수화보다는 여러 메트릭을 종합적으로 보고해야 함을 강조합니다.
핵심 포인트
- 벤치마크가 없는 상황에서 LLM 안전성 비교 평가 방법론(benchmarkless comparative safety scoring)을 공식화함.
- 평가는 고정된 시나리오 팩, 평가 체계, 감사자/판사 등의 엄격한 조건 하에만 유효하며, 재실행 안정성을 중요한 지표로 사용함.
- 안전성 비교는 단순 응답성(responsiveness) 대신 목표 기반 분산 우위 및 위험 측정에 초점을 맞춤.
- 노르웨이 공공 부문 조달 사례를 통해 실제 환경에서 모델 간 안전성 차이를 입증함 (예: Borealis vs Gemma 3).
- 안전성은 단일 점수로 환원될 수 없으며, 시나리오 카테고리별 위험 측정, 일치된 델타, 임계율 등 다양한 메트릭을 함께 보고해야 함.
관련 언어, 산업 분야 또는 규제 체제가 아직 라벨링된 벤치마크가 존재하지 않은 상태에서 후보 언어 모델을 안전성으로 비교해야 하는 배포 사례는 많습니다. 우리는 이를 라벨 없는 비교 안전 점수 (benchmarkless comparative safety scoring) 설정으로 공식화하고, 시나리오 기반 감사 (scenario-based audit) 를 배포 증거로 해석할 수 있는 계약을 명시합니다. 점수는 고정된 시나리오 팩 (scenario pack), 평가 체계 (rubric), 감사자 (auditor), 판사 (judge), 샘플링 구성 (sampling configuration), 그리고 재실행 예산 (rerun budget) 하에서만 유효합니다. 라벨이 없기 때문에, 우리는 지면 진실 동의 (ground-truth agreement) 를 응답성 (responsiveness) 에 대한 통제된 안전 대 abliterated(abliterated: 변형/훼손) 대비, 목표 기반 분산의 판사 및 감사자 아티팩트 (auditor and judge artifacts) 상 우위, 그리고 재실행 간 안정성으로 대체합니다. 우리는 SimpleAudit 라는 로컬 우선 점수 도구에서 이 체계를 구체화하고, 노르웨이 안전 팩 (Norwegian safety pack) 에서 이를 검증합니다. 안전 목표와 abliterated 목표는 AUROC 값 0.89~1.00 사이로 분리되며, 목표 정체성 (target identity) 은 우위 분산 요소 ($η^2 \approx 0.52$) 입니다. 그리고 중증도 프로파일은 10 회 재실행으로 안정화됩니다. 동일한 체계를 Petri 에 적용하면 두 도구가 모두 허용됨을 보여줍니다. 본질적 차이는 체인 (chain) 상류에서 발생하며, 주장 계약 집행 (claim-contract enforcement) 과 배포 적합성 (deployment fit) 입니다. 노르웨이 공공 부문 조달 사례를 통해 Borealis 와 Gemma 3 를 비교하여 결과적 증거를 실제적으로 보여줍니다: 더 안전한 모델은 시나리오 카테고리 및 위험 측정 (risk measure) 에 의존합니다. 따라서 점수, 일치된 델타 (matched deltas), 임계율 (critical rates), 불확실성, 그리고 감사자 및 판사는 단일 순위로 축소되지 않고 함께 보고되어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기