HuggingFace헤드라인2026. 05. 07. 13:24

Hugging Face Hub 에서 Llama Guard 4 환영

요약

Meta가 12B dense 멀티모달 안전 모델인 Llama Guard 4와 두 가지 새로운 Llama Prompt Guard 2를 Hugging Face Hub에 출시했습니다. Llama Guard 4는 이미지, 텍스트 입력 및 생성된 콘텐츠의 부적절한 내용을 감지하여 프로덕션 환경에서 AI의 안정성을 높이는 데 사용됩니다. 이 모델은 단일 GPU(24GB VRAM)에서도 실행 가능하며, 다양한 위험 카테고리 및 코드 인터프리터 악용을 분류할 수 있습니다.

핵심 포인트

Llama Guard 4는 이미지와 텍스트를 모두 평가하는 멀티모달 안전 모델입니다.
이 모델은 Llama 4 Scout에서 파생되었으나 MoE 구조 대신 Dense feedforward 아키텍처를 채택하여 단일 GPU 환경에서도 효율적으로 실행 가능합니다.
사용자 입력 및 AI 출력에 대한 부적절한 콘텐츠 감지(Moderation) 기능을 제공하여 프로덕션 서비스의 안전성을 강화합니다.
Llama Prompt Guard 2는 프롬프트 주입 및 제일브레이크 탐지에 특화된 새로운 분류기를 제공하며, 이전 버전 대비 성능과 효율성이 향상되었습니다.

Hugging Face Hub 에서 Llama Guard 4 환영

TL;DR: 오늘 Meta 가 Llama Guard 4 를 출시했습니다. 이는 12B dense (MoE 아님!) 멀티모달 안전 모델이며, 두 가지 새로운 Llama Prompt Guard 2 모델도 함께 출시되었습니다. 이 릴리스에는 여러 개의 오픈 모델 체크포인트가 포함되어 있으며, 시작을 쉽게 하기 위한 인터랙티브 노트북도 제공 🤗. 모델 체크포인트는 Llama 4 Collection.Vision 에서 찾을 수 있습니다.

Vision(시각) 및 대형 언어 모델을 프로덕션에 배포할 경우, Jail breaking 이미지 및 텍스트 프롬프트를 통해 불안전한 출력을 생성하는 데 악용될 수 있습니다. 프로덕션 환경의 불안전한 콘텐츠는 해롭거나 부적절하거나, 사생활이나 지적 재산권을 침해하는 것까지 다양합니다.

새로운 보호 모델은 이미지와 텍스트, 그리고 모델이 생성한 콘텐츠를 평가함으로써 이 문제를 해결합니다. 불안전하다고 분류된 사용자 메시지는 Vision 및 대형 언어 모델로 전달되지 않으며, 프로덕션 서비스는 불안전한 어시스턴트 응답을 필터링할 수 있습니다.

Llama Guard 4 는 입력으로 사용되거나 모델의 출력으로 생성되는 이미지와 텍스트에 대한 부적절한 콘텐츠를 감지하도록 설계된 새로운 멀티모달 모델입니다. 이는 Llama 4 Scout 모델에서 pruned (정제) 된 dense 12B 모델이며, 단일 GPU(24 GB VRAM) 에서 실행할 수 있습니다. 텍스트 전용 및 이미지 + 텍스트 입력을 모두 평가할 수 있어 대형 언어 모델의 입력과 출력 필터링에 적합합니다. 이는 프롬프트가 모델에 도달하기 전에 분석되고, 생성된 응답이 안전성을 위해 이후 검토되는 유연한 모더레이션 파이프라인을 가능하게 합니다. 또한 여러 언어를 이해할 수 있습니다.

모델은 MLCommons hazard taxonomy 에서 정의된 14 가지 유형의 위험과 코드 인터프리터 악용을 분류할 수 있습니다.

S1: Violent Crimes	S2: Non-Violent Crimes
S3: Sex-Related Crimes	S4: Child Sexual Exploitation
S5: Defamation	S6: Specialized Advice
...	...

모델이 감지할 수 있는 카테고리 목록은 추후에 설명할 것처럼 추론 시 사용자가 구성할 수 있습니다.

Llama Guard 4 는 Llama 4 Scout 와 달리 Dense feedforward early-fusion architecture 를 사용합니다. Llama 4 Scout 는 각 층마다 하나의 공유 dense expert 와 16 개의 라우팅된 experts 를 사용하는 Mixture-of-Experts (MoE) 레이어를 사용했습니다. Llama 4 Scout 사전 학습을 활용하기 위해, 모든 라우팅된 experts 와 router 레이어를 제거하여 공유 expert 만 유지함으로써 architecture 를 dense 모델로 pruned 하였습니다. 이는 사전 훈련된 공유 expert weights 로 초기화된 dense feedforward 모델을 의미합니다. Llama Guard 4 에는 추가적인 사전 훈련이 적용되지 않았습니다. 포스트-훈련 데이터는 Llama Guard 3 모델을 훈련하기 위해 사용된 멀티이미지 훈련 데이터 (최대 5 이미지) 및 인간 주석된 다국어 데이터로 구성됩니다. 훈련 데이터의 비율은 텍스트 전용 데이터에 비해 멀티모달 데이터가 3:1 입니다.

아래에는 이전 안전 모델 버전인 Llama Guard 3 과 비교한 Llama Guard 4 의 성능이 나옵니다.

| Absolute values |
|---|---|
| vs. Llama Guard 3 |
||||||
|---|---|---|---|---|---|---|
| Recall | False Positive Rate | F1-score | Δ Recall | Δ False Positive Rate | Δ F1-Score | |
English |
69% | 11% | 61% | 4% | -3% | 8% |
Multilingual |
43% | 3% | 51% | -2% | -1% | 0% |
Single-image |
41% | 9% | 38% | 10% | 0% | 8% |
Multi-image |
61% | 9% | 52% | 20% | -1% | 17% |

Llama Prompt Guard 2 시리즈는 프롬프트 주입 (prompt injection) 및 제일브레이크 (jailbreak) 탐지에 특화된 8600 만개와 2200 만개의 파라미터를 갖춘 두 개의 새로운 분류기를 소개합니다. 이전 버전인 Llama Prompt Guard 1 과 비교하면, 이 새 버전은 향상된 성능, 더 빠르고 컴팩트한 2200 만개 모델, 적대적 공격에 저항성 있는 토큰화 (tokenization), 그리고 단순화된 이진 분류 (benign vs. malicious) 를 제공합니다.

Llama Guard 4 와 Prompt Guard 2 를 사용하려면 hf_xet
과 Llama Guard 의 미리보기 릴리스를 설치한 것을 확인하세요.

pip install git+https://github.com/huggingface/transformers@v4.51.3-LlamaGuard-preview hf_xet

사용자 입력에 대해 Llama Guard 4 를 실행하는 간단한 예제는 다음과 같습니다.

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-Guard-4-12B"
...

앱이 지원되는 카테고리 중 일부에 대해 감시 (moderation) 를 필요로 하지 않는 경우, 관심 없는 카테고리는 다음과 같이 무시할 수 있습니다.

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-Guard-4-12B"
...

때로는 사용자 입력뿐만 아니라 모델의 생성 (generations) 도 해로운 내용을 포함할 수 있습니다. 우리는 또한 모델의 생성을 감시할 수도 있습니다!

messages = [
{
"role": "user",
...

이것은 채팅 템플릿이 제외된 카테고리를 목록에 언급하지 않는 시스템 프롬프트를 생성하기 때문에 작동합니다.

대화에서 이미지를 추론하는 방법은 다음과 같습니다.

messages = [
{
"role": "user",
...

Llama Prompt Guard 2 를 직접 파이프라인 API 를 통해 사용할 수 있습니다:

from transformers import pipeline
classifier = pipeline("text-classification", model="meta-llama/Llama-Prompt-Guard-2-86M")
classifier("Ignore your previous instructions.")
...

또는 AutoTokenizer + AutoModel API 를 통해 사용할 수도 있습니다:

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_id = "meta-llama/Llama-Prompt-Guard-2-86M"
...

AI 자동 생성 콘텐츠

원문 바로가기

Hugging Face Hub 에서 Llama Guard 4 환영

요약

핵심 포인트

Hugging Face Hub 에서 Llama Guard 4 환영

댓글