인코더만으로 충분한가? LLM 적대적 평가를 위한 인코더 및 디코더 안전성 판사(Safety Judges)의 체계적 비교
요약
LLM의 안전성 평가를 위해 기존 LLM 기반 판사 대신 ModernBERT와 같은 인코더 분류기를 사용하는 방식의 성능을 체계적으로 비교 연구했습니다. 인코더 분류기가 비용과 지연 시간을 줄이면서도 유해 출력을 효과적으로 식별할 수 있는지 다양한 공격 기법과 지표를 통해 검증했습니다.
핵심 포인트
- LLM 기반 판사의 높은 비용과 지연 시간 문제를 해결하기 위한 대안 제시
- ModernBERT 등 현대적 인코더 분류기의 안전성 평가 성능 분석
- 다양한 공격 기법(문맥 조작, 에스컬레이션 등)에 따른 인코더의 대응력 확인
- 인코더 분류기가 LLM 판사를 대체할 수 있는 효율적인 가이드라인 제공
챗봇 및 일상적인 애플리케이션에서 대규모 언어 모델(LLMs)의 채택이 확산됨에 따라, 기업들은 저비용 및 저지연(low-latency)을 유지하면서도 효과적인 가드레일(guardrails)을 점점 더 필요로 하고 있습니다. LLM 출력의 안전성 평가(Safety evaluation)는 일반적으로 LLM 기반 판사(LLM-based judges)에 의존해 왔으며, 이는 효과적일 수 있지만 대규모로 배포하기에는 느리고 비용이 많이 드는 경우가 많습니다. 본 논문에서는 ModernBERT 및 Ettin을 포함한 ModernBERT 제품군의 미세 조정된(fine-tuned) 현대적 인코더 분류기(encoder classifiers)가 LLM 기반 판사와 비교하여 상당한 성능 저하 없이 사용자-모델 대화에서 유해한 LLM 출력을 안정적으로 식별할 수 있는지 평가합니다. 우리는 오픈 소스 적대적 데이터셋 전반에 걸쳐 다양한 판사 프롬프팅(judge-prompting) 전략을 사용하여, 이러한 인코더 분류기를 규칙 기반 접두사 매칭(rule-based prefix matching), 미세 조정된 LLM 분류기, 그리고 LLM 판사와 벤치마킹합니다. LLM 판사에는 StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, 그리고 Claude-as-a-judge 설정의 평가 방법론뿐만 아니라 LlamaGuard 3 및 LlamaGuard 4와 같은 미세 조정된 안전 분류기가 포함됩니다. 인코더 분류기는 다수결 투표 라벨 전략(majority-voting label strategy)을 사용하여 판사가 라벨링한 데이터로 미세 조정된 후, LLM 판사 대비 성능을 평가하기 위해 골드 표준 홀드아웃 데이터셋(gold-standard holdout dataset)에서 평가됩니다. 우리는 F1 점수(F1 score), 미검출률(false negative rate), 정밀도-재현율(precision-recall) 지표를 사용하여 절대적 성능을 보고합니다. 또한 단일 턴 프롬프팅(single-turn prompting), 분해(decomposition), 에스컬레이션(escalation), 문맥 조작(context manipulation)을 포함한 공격 기법별로 결과를 세분화하여 인코더 분류기가 LLM 기반 판사와 일치하거나 벗어나는 지점을 식별합니다. 우리의 연구 결과는 인코더 분류기가 언제 LLM 기반 안전성 평가의 비용 및 지연 시간 효율적인 대안으로 기능할 수 있는지에 대한 지침을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기