HaloGuard 1.0: 다국어 AI 안전을 위한 오픈 웨이트 (Open Weights) 헌법적 분류기 (Constitutional

우리는 입력 안전성을 위한 헌법적 분류기 (Constitutional-classifier) 패러다임의 오픈 웨이트 (Open-weights) 구현체인 HaloGuard 1.0을 선보입니다. 이 모델은 현재 선도적인 오픈 가드 (Open guard) 모델들의 약 10분의 1 크기에 불과하면서도, 영어 및 다국어 프롬프트 안전성 (Prompt-safety) 벤치마크에서 최첨단 (State-of-the-art) 성능을 달성합니다. 안전 헌법 (Safety constitution)은 코퍼스 (Corpus)의 조직 구조 역할을 합니다. 46개의 정책과 2,940개의 하위 카테고리로 구성된 자연어 헌법이 합성 데이터 생성을 주도하며, 주제와 어휘는 고정하되 의도(Intent)만 반전시키는 철저한 일대일 쌍을 이룬 반사실적 (Counterfactuals) 데이터를 생성합니다. 또한 경계 및 기본 오탐 (False Positives, FPs)을 별도로 타겟팅하는 2단계 무해성 (Harmless) 설계를 채택하였으며, 언어를 적대적 신호 (Adversarial signal)가 아닌 경계 양측 모두에 나타나는 표면 형태 (Surface form)로 취급하여 46개 언어에 걸쳐 균형 잡힌 다국어 실체화 (Multilingual materialisation)를 구현했습니다. 7개의 프롬프트 안전성 벤치마크 전반에 걸쳐, HaloGuard 1.0-0.8B는 우리가 평가한 모든 오픈 가드 중 가장 높은 평균 F1 점수(90.9)를 기록했으며, 오탐률 (False-positive rate, FPR)을 4.3으로, 미탐률 (False-negative rate, FNR)을 9.5로 유지하면서 최대 27B 파라미터(30배 이상 더 큰 규모)의 베이스라인 모델들을 능가했습니다. HaloGuard 1.0-4B 변체는 평균 F1 92.1과 FPR 3.5에 도달하며, 추가된 용량을 재현율 (Recall)보다는 정밀도 (Precision)에 할애합니다. 잔여 실패 사례에 대한 구조적 판결 (Structured adjudication) 결과, 명백한 유해성 누락 사례의 대부분은 실제 모델의 실수라기보다 벤치마크의 레이블 오류 (Mislabels)인 것으로 나타났습니다. 상시 가동되는 적대적 레드팀 (Adversarial red-teaming) 프로토콜은 콘텐츠 수준 및 에이전트적 (Agentic) 공격 모두에 대해 가드를 지속적으로 강화합니다. 우리는 이 모델들을 오픈 웨이트 (Open weights)로 공개합니다.

Insights

HaloGuard 1.0: 다국어 AI 안전을 위한 오픈 웨이트 (Open Weights) 헌법적 분류기 (Constitutional

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실