arXiv논문2026. 05. 29. 10:51

Opir: 독성, 탈옥, 혐오 표현 및 유해 콘텐츠를 위한 효율적인 멀티태스크 안전 분류

요약

Opir은 LLM의 안전성을 실시간으로 검증하기 위한 효율적인 멀티태스크 가드레일 모델 제품군입니다. GLiClass 아키텍처를 기반으로 독성, 탈옥, 유해 콘텐츠를 정밀하게 분류하며, 엣지 디바이스에서도 구동 가능한 경량화된 모델을 제공합니다.

핵심 포인트

독성, 탈옥, 유해 콘텐츠를 탐지하는 멀티태스크 분류 모델
3단계 분류 체계(Taxonomy)를 통한 정밀한 카테고리 구분
1억 개 미만 파라미터의 경량 엣지 변체 모델 공개
기존 가드레일 시스템 대비 높은 효율성과 강력한 성능 입증

대규모 언어 모델 (LLM) 애플리케이션을 위한 실시간 안전 필터링에는 대형 가드레일 (guardrail) 모델의 비용 프로필 없이도 안전하지 않은 프롬프트 (prompt), 독성 언어 (toxic language), 탈옥 (jailbreak) 시도 및 안전하지 않은 응답을 탐지할 수 있고, 무해한 민감 텍스트와 진정으로 은밀한 유해 콘텐츠를 구분할 수 있는 분류기가 필요합니다. 본 논문에서는 GLiClass 아키텍처를 기반으로 구축된 인코더 기반 가드레일 모델 제품군인 Opir을 소개합니다. Opir은 이진 안전/불안전 (safe/unsafe) 분류, 멀티 레이블 (multi-label) 독성 분류, 탈옥 분류, 그리고 제로샷 (zero-shot) 안전하지 않은 프롬프트 및 응답 범주화 기능을 갖춘 멀티태스크 모델을 포함합니다. 또한, 이진 안전/불안전 범주화에 특화된 1억 개 (100M) 미만의 파라미터를 가진 엣지 (edge) 변체 모델들도 공개합니다. 이 모델들은 16개의 상위 레벨 레이블, 126개의 중간 레벨 레이블, 854개의 리프 (leaf) 레이블에 걸쳐 996개의 카테고리를 포함하는 3단계 분류 체계 (taxonomy)로 학습되었습니다. Opir의 학습 데이터는 분류 체계에 기반한 안전하지 않은 프롬프트, 적대적으로 채굴된 하드 네거티브 (hard negatives), 무해한 안전 유지 예시, 생성된 응답 예시, 다국어 번역, 그리고 Aegis2 및 WildGuard 학습 서브셋의 일부를 결합합니다. 우리는 또한 GLiClass 및 GLiNER2 백엔드뿐만 아니라 디코더 (decoder) 기반 모델을 지원하며, 공개 벤치마크 제품군 전반에 걸쳐 이진 안전 분류, 멀티 레이블 범주화, 독성, 탈옥 탐지, 프롬프트 안전성, 응답 안전성, 응답 거부, 프롬프트 하위 카테고리 뷰를 다루는 평가 하네스 (evaluation harness)를 오픈 소스로 공개했습니다. GLiNER2 기반 모델과 생성형 가드레일 모델을 모두 포함한 8개의 현대적 가드레일 시스템과 비교하여, 12개의 안전 분류 작업 및 17개의 카테고리 작업을 아우르는 확장된 비교 결과, Opir 변체들은 대폭 작은 배포 규모로 운영되면서도 대부분의 벤치마크 데이터셋에서 가장 강력한 오픈 웨이트 (open-weight) 베이스라인과 대등하거나 이를 앞서는 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Opir: 독성, 탈옥, 혐오 표현 및 유해 콘텐츠를 위한 효율적인 멀티태스크 안전 분류

요약

핵심 포인트

댓글