HaloGuard 1.0: 다국어 AI 안전을 위한 오픈 웨이트 (Open Weights) 헌법적 분류기 (Constitutional
요약
HaloGuard 1.0은 다국어 프롬프트 안전성을 위한 소형 오픈 웨이트 헌법적 분류기입니다. 기존 대형 모델 대비 훨씬 작은 크기임에도 불구하고 46개 언어에 걸쳐 최첨단 성능을 달성했습니다.
핵심 포인트
- 기존 오픈 가드 모델의 약 1/10 크기로 효율적인 성능 구현
- 46개 정책과 2,940개 하위 카테고리의 자연어 헌법 기반 데이터 생성
- 7개 벤치마크에서 30배 큰 모델을 능가하는 높은 F1 점수 기록
- 오탐(FP)과 미탐(FN)을 별도로 타겟팅하는 2단계 무해성 설계 채택
- 오픈 웨이트로 공개되어 연구 및 개발 활용 가능
우리는 입력 안전성을 위한 헌법적 분류기 (Constitutional-classifier) 패러다임의 오픈 웨이트 (Open-weights) 구현체인 HaloGuard 1.0을 선보입니다. 이 모델은 현재 선도적인 오픈 가드 (Open guard) 모델들의 약 10분의 1 크기에 불과하면서도, 영어 및 다국어 프롬프트 안전성 (Prompt-safety) 벤치마크에서 최첨단 (State-of-the-art) 성능을 달성합니다. 안전 헌법 (Safety constitution)은 코퍼스 (Corpus)의 조직 구조 역할을 합니다. 46개의 정책과 2,940개의 하위 카테고리로 구성된 자연어 헌법이 합성 데이터 생성을 주도하며, 주제와 어휘는 고정하되 의도(Intent)만 반전시키는 철저한 일대일 쌍을 이룬 반사실적 (Counterfactuals) 데이터를 생성합니다. 또한 경계 및 기본 오탐 (False Positives, FPs)을 별도로 타겟팅하는 2단계 무해성 (Harmless) 설계를 채택하였으며, 언어를 적대적 신호 (Adversarial signal)가 아닌 경계 양측 모두에 나타나는 표면 형태 (Surface form)로 취급하여 46개 언어에 걸쳐 균형 잡힌 다국어 실체화 (Multilingual materialisation)를 구현했습니다. 7개의 프롬프트 안전성 벤치마크 전반에 걸쳐, HaloGuard 1.0-0.8B는 우리가 평가한 모든 오픈 가드 중 가장 높은 평균 F1 점수(90.9)를 기록했으며, 오탐률 (False-positive rate, FPR)을 4.3으로, 미탐률 (False-negative rate, FNR)을 9.5로 유지하면서 최대 27B 파라미터(30배 이상 더 큰 규모)의 베이스라인 모델들을 능가했습니다. HaloGuard 1.0-4B 변체는 평균 F1 92.1과 FPR 3.5에 도달하며, 추가된 용량을 재현율 (Recall)보다는 정밀도 (Precision)에 할애합니다. 잔여 실패 사례에 대한 구조적 판결 (Structured adjudication) 결과, 명백한 유해성 누락 사례의 대부분은 실제 모델의 실수라기보다 벤치마크의 레이블 오류 (Mislabels)인 것으로 나타났습니다. 상시 가동되는 적대적 레드팀 (Adversarial red-teaming) 프로토콜은 콘텐츠 수준 및 에이전트적 (Agentic) 공격 모두에 대해 가드를 지속적으로 강화합니다. 우리는 이 모델들을 오픈 웨이트 (Open weights)로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기