Nemotron 3.5 콘텐츠 안전성: 글로벌 기업용 AI를 위한 맞춤형 멀티모달 (Multimodal) 안전성

이 포스트에서는 3.5 버전에서 무엇이 변경되었는지, 각 새로운 기능 뒤에 숨겨진 설계 결정은 무엇인지, 그리고 모델을 프로덕션 (Production) 안전 파이프라인에 어떻게 통합하는지를 다룹니다.

Nemotron 3는 이미지 이해 기능을 도입했습니다. Nemotron 3.5는 멀티모달 (Multimodal) 통합을 더욱 심화시켰습니다. 이 모델은 **사용자 프롬프트 (User prompt), 선택 사항인 이미지, 그리고 선택 사항인 어시스턴트 응답 (Assistant response)**을 하나의 컨텍스트 윈도우 (Context window)로 받아들여 결합된 입력값에 대해 일관된 안전성 판결을 생성합니다. 각 요소를 독립적으로 점수화하는 대신 세 가지를 모두 함께 평가함으로써, 멀티모달 안전성 시나리오에서 잘 알려진 격차를 해소합니다. 즉, 텍스트와 이미지 사이, 또는 요청과 응답 사이의 상호작용을 통해서만 나타나는 정책 위반 사항을 이제 단 한 번의 패스 (Pass)로 포착할 수 있습니다.

Nemotron 3.5는 이전 모델들의 12개 언어 명시적 학습 범위를 유지합니다—영어, 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어, 아랍어, 힌디어, 러시아어, 포르투갈어, 이탈리아어—동시에 Gemma 3 베이스 모델로부터 약 140개 언어에 걸친 강력한 제로샷 (Zero-shot) 일반화 능력을 상속받았습니다. 이는 학습 데이터가 부족한 시장(예: 동남아시아 언어, 스칸디나비아 언어, 자원이 적은 아프리카 언어 등)에서의 배포가 별도의 미세 조정 (Fine-tuning) 없이도 베이스 모델의 다국어 전이 (Multilingual transfer) 효과를 누릴 수 있음을 의미합니다.

이는 Nemotron 3와 비교했을 때 3.5 버전에서 가장 중요한 아키텍처적 추가 사항입니다. 실제 프로덕션 배포 환경은 단일한 보편적 안전 분류 체계 (Safety taxonomy) 하에서 운영되는 경우가 드뭅니다. 의료 플랫폼은 금융 서비스 챗봇, 개발 도구 IDE, 또는 어린이 교육 앱과는 다른 리스크 프로필 (Risk profile)을 가집니다. Nemotron 3.5는 입력값과 함께 사용자 정의 정책 명세 (Custom policy specification)를 수용합니다. 모델은 내장된 분류 체계에 전적으로 의존하는 대신, 판결을 내릴 때 해당 정책을 바탕으로 추론합니다. 이는 Nemotron Content Safety Reasoning 4B에서 처음 도입된 작업을 전체 멀티모달 및 다국어 환경으로 확장한 것입니다.

Nemotron 3.5의 모든 안전 판정(safety verdict)은 선택적인 think mode를 통해 감사 가능한 추론 흔적(auditable reasoning trace)을 동반할 수 있습니다. 이 모드가 활성화되면, 모델은 최종적인 safe / unsafe 레이블과 (선택적으로) 위반된 카테고리를 전달하기 전에 단계별 추론 과정을 출력합니다.

<think>
사용자 프롬프트가 처방전 없이 통제 물질을 입수하는 방법에 대한 안내를 요청하고 있습니다.
어시스턴트의 응답은 구체적인 조달 단계를 제공하며 온라인 마켓플레이스를 참조하고 있습니다.
...

지연 시간(latency)이 주요 제약 사항인 경우, THINK 모드를 비활성화하여 Nemotron 3에서 사용 가능했던 것과 동일한 저지연 이진 판정(low-latency binary verdict)을 반환할 수 있습니다.

Nemotron 3.5와 함께 당사는 안전 데이터셋(safety dataset)을 공개합니다. 대부분의 오픈 소스(OSS) 안전 모델들이 일반적으로 훈련 또는 평가 세트를 제공하지 않는다는 점에서 이는 중요한 이정표입니다. 이러한 문제는 이미지나 비디오와 같은 아티팩트(artifacts)가 제한적인 라이선스 약관이 적용되는 리소스에서 파생되는 경우가 많은 멀티모달(multimodal) 영역에서 더욱 심각합니다. Nemotron 3.5 콘텐츠 안전 데이터셋(Nemotron 3.5 Content Safety Dataset)은 멀티모달이며 다국어를 지원하며, 모델을 훈련하는 데 사용된 안전 추론 흔적(safety reasoning traces)을 포함하고 있습니다. 이 추론 흔적들은 Nemotron Content Safety Reasoning 4B 모델과 유사하게 간결하게 만들기 위해 2단계 방식으로 생성되었습니다.

Nemotron 3.5 Content Safety는 Google Gemma 3 4B IT (4B 파라미터)를 기반으로 구축되어, 128K 컨텍스트 윈도우(context window), 강력한 시각-언어 추론(vision-language reasoning), 그리고 폭넓은 다국어 커버리지를 제공합니다. NVIDIA는 이 베이스 모델을 LoRA 어댑터(LoRA adapter)로 미세 조정(fine-tune)하여, 모델을 8GB 이상의 VRAM GPU에서 실시간 배포가 가능할 만큼 컴팩트하게 유지하면서도 타겟팅된 안전 분류 동작을 설치합니다.

추론 인터페이스는 세 가지 출력 모드를 지원합니다:

모드 1 — 저지연 이진 판정 (Low-latency binary verdict):

User Safety: safe
Response Safety: unsafe

모드 2 — 카테고리가 포함된 이진 판정 (Binary verdict with categories):

User Safety: safe
Response Safety: unsafe
Safety Categories: Violence, Criminal Planning/Confessions

모드 3 — THINK 모드 (추론 + 판정) (THINK mode (reasoning + verdict)):

<think> [step-by-step reasoning trace] </think> ...

안전성 분류 체계(Safety taxonomy)는 Aegis 2.0 프레임워크를 따릅니다. 이는 MLCommons 안전성 분류 체계와 일치하는 13개의 핵심 카테고리와 10개의 세분화된 하위 카테고리로 구성됩니다. 이러한 정렬을 통해 Aegis-taxonomy 데이터셋을 기반으로 벤치마크된 다른 오픈 및 폐쇄형 가드 시스템(guard systems)과 직접적인 비교가 가능합니다.

추론(Reasoning)은 콘텐츠 안전성 분류를 위한 강력한 촉매제입니다. 왜냐하면 추론은 특히 기업 및 규제 환경의 프로덕션 AI 시스템에서 요구되는 필수적인 문맥(context), 맞춤화(customization), 그리고 책임성(accountability)을 제공하기 때문입니다.

맞춤형 및 문맥적 정책 집행 가능

추론을 통해 콘텐츠 안전성 모델은 추론(inference) 시점에 자연어로 정의된 맞춤형 도메인별 정책을 동적으로 해석하고 집행할 수 있습니다. 이는 실제 프로덕션 배포 환경이 단일한 범용 안전성 분류 체계 하에서 운영되는 경우가 드물기 때문에 필수적입니다. 예를 들어, 금융 서비스 챗봇은 비속어에 대한 허용치가 낮을 수 있는 어린이 교육 앱과는 다른 위험 프로필(risk profile)을 가집니다. 이 기능은 다음과 같은 사항을 지원합니다:

카테고리 억제(Category Suppression): DevOps 도구가 "프로세스 종료(terminate a process)"라는 문구를 처리할 때 "폭력" 카테고리가 트리거되는 것을 방지하는 것과 같이, 관련 없는 카테고리를 비활성화합니다.
맞춤형 카테고리 주입(Custom Category Injection): 조직의 규제 또는 제품 정책에 특화된 독자적인 위험 카테고리를 정의합니다.

감사 가능하고 문서화된 근거 제공

추론 흔적(reasoning traces)은 모델이 최종적인 안전(safe) 또는 불안전(unsafe) 판정을 내리기 전의 단계별 논리를 보여줍니다. 이렇게 문서화된 근거는 다음과 같은 여러 목적을 수행합니다:

컴플라이언스 및 감사 로그(Compliance and Audit Logging): 규제 산업에서는 콘텐츠 중재 결정에 대한 문서화된 근거를 요구하는 경우가 많습니다.
인간 검토(Human Review): 검토자는 판정이 내려진 이유를 감사하여 모델의 체계적인 오류를 식별할 수 있습니다.
정책 반복(Policy Iteration): 추론 흔적은 모델이 예외 사례(edge cases)를 어떻게 해석하는지 보여주며, 이를 통해 팀은 맞춤형 정책 언어를 반복적으로 정교화하고 개선할 수 있습니다.

지연 시간(Latency)

추론(Reasoning) 과정이 지연 시간(Latency)을 유발할 수 있지만, Nemotron 모델은 추론 체인(Reasoning chains)을 간결한 요약으로 압축하여 출력 토큰(Output tokens)을 제한하고 효율성을 높임으로써 이 문제를 해결합니다. 이는 이전 모델인 Nemotron-Content-Safety-Reasoning-4B에서 수행된 방식과 유사한 2단계 프로세스로 진행됩니다. 첫 번째 단계에서는 Qwen 397B와 같이 더 크고 강력한 모델을 사용하여 제공된 프롬프트(Prompts), 이미지, 응답을 기반으로 사고의 사슬(Chain-of-thought) 추론 흔적(Reasoning traces)을 생성합니다. 또한 추론 흔적에 잘못된 분류가 포함되는 것을 방지하기 위해 샘플의 정답 라벨(Ground-truth labels)을 함께 제공했습니다. 두 번째 단계에서는 Qwen 80B와 같은 또 다른 대규모 모델을 사용하여 이러한 추론 흔적을 더욱 간결하게 만듭니다. 우리는 이 모델이 (1단계의) 원래 흔적을 3문장 이내로 들어맞도록 재구성하도록 구체적으로 지시합니다. 실험 결과에 따르면, 생성된 대부분의 추론 흔적은 3문장 미만입니다.

이러한 효율적인 추론 흔적 최적화를 통해 낮은 지연 시간으로 맞춤형 정책 집행(Policy enforcement)이 가능해집니다. 또한, 추론 흔적은 전문화된 중재 모델(Moderator models)을 학습시키는 데 사용할 수 있는 가치 있는 학습 신호(Training signal)를 제공합니다. 개발자는 일반적인 작업에서는 최소한의 지연 시간을 위해 추론을 비활성화하거나, 복잡한 정책을 위해 추론을 활성화하는 이중 모드(Dual-mode) 운영을 선택할 수 있습니다.

Nemotron 3.5를 구동하는 데이터셋은 Nemotron 3에서 사용된 멀티모달(Multimodal), 다국어(Multilingual) 혼합 데이터셋의 진화된 형태이며, 추론 및 맞춤형 정책 역량을 겨냥한 추가 사항이 포함되었습니다. 우리는 다음과 같은 데이터 소스를 사용했습니다:

**다국어 텍스트 안전 데이터 (Multilingual text safety data)**는 Nemotron Safety Guard Dataset v3에서 가져온 것으로, 안전 카테고리 및 안전/비안전(safe/unsafe) 분할 전반에 걸쳐 비례적인 표현을 담은 문화적 뉘앙스가 반영된 하위 집합에서 샘플링되었습니다. **인간이 주석을 단 멀티모달 데이터 (Human-annotated multimodal data)**는 NVIDIA가 영어로 수집한 후 12개 언어로 번역되었습니다. 결정적으로, 훈련 이미지의 99%는 실제 사진이며 합성 생성물이 아닙니다. 이는 VLGuard 및 MM-SafetyBench와 같은 기존 데이터셋이 실제 콘텐츠의 문화적 질감과 적대적 복잡성이 부족한 SDXL 생성 이미지에 크게 의존하는, 멀티모달 안전 벤치마크 환경의 알려진 약점을 직접적으로 해결합니다. 라이선스 제약으로 인해 이 실제 이미지들을 모두 공개할 수는 없었지만, Wikimedia의 이미지 일부와 합성 생성물을 공개할 수 있었습니다. **안전한 멀티모달 데이터 (Safe multimodal data)**는 Nemotron VLM Dataset v2에서 가져왔으며, 스캔된 문서, 차트, 논문 및 다이어그램과 관련 질의를 포함하여 모델이 무해한 전문 콘텐츠를 과도하게 차단(over-flag)하지 않도록 보장합니다. **추론 흔적 (Reasoning traces)**은 더 큰 교사 모델(Teacher models)인 Qwen 397B에서 생성된 사고 사슬(Chain-of-thought) 출력에서 유도되었으며, 이후 Qwen 80B를 사용하여 축약되어 모델에 추론 방법을 가르치는 데 사용되었습니다. **주제 준수 데이터 (Topic following data)**는 다양한 기업 배포 시나리오(의료, 금융, 은행, 교육 등)에 걸친 정책 명세/판결 쌍으로 구성된 CantTalkAboutThis 데이터셋에서 가져왔습니다. **합성 데이터 (Synthetic data)**는 전체 훈련량의 약 10%를 차지하며, 주로 탈옥(jailbreak) 패턴을 다양화하고, 드문 정책 위반 사례를 생성하며, 멀티모달 적대적 사례를 생성하는 데 사용되었습니다.

Nemotron 3.5 Content Safety는 VLGuard, MM-SafetyBench, PolyGuard, RTP-LX, Aya Redteaming, XSafety, MultiJail, Aegis, Dynaguardrail, CoSA를 포함한 다국어, 멀티모달 (Multimodal), 그리고 맞춤형 정책 (custom-policy) 안전성 벤치마크를 통해 평가되었습니다. 이러한 평가는 기업용 안전성(enterprise safety)의 핵심적인 운영 과제를 반영합니다. 즉, 상당한 지연 시간 (latency)을 추가하지 않으면서 글로벌 언어, 텍_스트 및 이미지 입력, 그리고 도메인별 특정 정책에 걸쳐 일관된 가드레일 (guardrails)을 적용하는 것입니다.

Nemotron 3는 멀티모달 유해 콘텐츠 테스트에서 평균 84%의 정확도를 기록하며 강력한 기준점 (baseline)을 설정했으며, LlamaGuard-4-12B의 약 절반 수준의 지연 시간을 보여주었습니다. Nemotron 3.5는 이러한 컴팩트한 4B 효율성을 유지하면서 맞춤형 정책 지원과 추론 흔적 (reasoning traces)을 추가했습니다.

다국어 및 멀티모달 안전성 벤치마크 전반에 걸쳐, Nemotron 3.5는 컴팩트한 규모를 유지하면서도 강력한 유해 콘텐츠 분류 정확도를 제공합니다. 이는 많은 안전성 모델들이 영어 우선(English-first)이거나, 텍스트 전용이거나, 혹은 운영 파이프라인에서 반복적으로 실행하기에 비용이 너무 많이 들기 때문에 매우 중요합니다. Nemotron 3.5는 다국어 커버리지, 멀티모달 분류, 맞춤형 정책 지원, 그리고 저지연 배포 (low-latency deployment)를 하나의 모델로 결합하도록 설계되었습니다.

그림 1. Nemotron 3.5 Content Safety는 다국어 및 멀티모달 안전성 벤치마크 전반에서 강력한 유해 콘텐츠 분류 정확도를 제공하며, 평가된 벤치마크 세트 전체에서 평균 약 85%를 기록합니다.

언어 수준의 결과는 왜 글로벌 기업용 AI에 다국어 안전성이 중요한지를 강조합니다. Multilingual Aegis에서 Nemotron 3.5는 12개 언어에 걸쳐 평균 96.5%의 유해 콘텐츠 분류 정확도를 기록했습니다. RTP-LX에서는 평균 88.8%를 기록하여, Aegis와 RTP-LX를 합산한 평균은 92.7%에 달합니다. 이러한 일관성은 팀들이 영어 전용 중재 (moderation)나 별도의 지역별 안전성 모델에 의존하는 대신, 고객, 직원 및 파트너 대상 워크플로 전반에 걸쳐 동일한 안전 태세 (safety posture)를 적용할 수 있도록 돕습니다.

그림 2. Nemotron 3.5 Content Safety는 12개 언어에 걸친 Multilingual Aegis Cultural + Adapted (프롬프트 분류) (harmful-f1)에서 평균 97%의 유해 콘텐츠 분류 정확도를 기록합니다.

그림 3. Nemotron 3.5 Content Safety는 12개 언어에 걸친 RTPLX (프롬프트 분류) (harmful-f1)에서 평균 89%의 유해 콘텐츠 분류 정확도를 기록합니다.

프로덕션 가드레일 (production guardrails)을 위해서는 정확도만으로는 충분하지 않습니다. 안전 모델 (safety models)은 콘텐츠가 처리되거나, 반환되거나, 다운스트림 (downstream)으로 라우팅되기 전에 실행될 수 있을 만큼 충분히 효율적이어야 합니다. Nemotron 3.5 Content Safety의 컴팩트한 4B 설계는 반복적인 안전 점검의 비용과 지연 시간 (latency)을 줄이는 데 도움을 주며, 다국어 및 멀티모달 (multimodal) 가드레일을 실제 AI 애플리케이션에서 실용적으로 사용할 수 있게 합니다.

지연 시간 프로필 (latency profile)은 기본 (THINK 미사용) 모드에서 Nemotron 3와 동일합니다. THINK 모드는 추적 길이 (trace length)에 비례하여 추론 시간 (inference time)을 추가하지만, 이 오버헤드는 예측 가능하며 동기식 중재 루프 (synchronous moderation loop)와 별도로 예산을 책정할 수 있습니다. 예를 들어, 기본 모드가 실시간 결정을 처리하는 동안 THINK 모드 평가를 감사 파이프라인 (audit pipeline)의 일부로 비동기식 (asynchronously)으로 실행할 수 있습니다.

그림 4. Nemotron 3.5 Content Safety는 멀티모달 벤치마크에서 다른 멀티모달 안전 모델과 비교하여 3배 더 낮은 엔드 투 엔드 지연 시간 (end-to-end latency)을 달성합니다.

Nemotron 3.5 콘텐츠 안전성: 글로벌 기업용 AI를 위한 맞춤형 멀티모달 (Multimodal) 안전성

요약

핵심 포인트

댓글