NVIDIA의 Nemotron Diffusion: 하나의 모델, 세 가지 생성 모드, 6배 빠른 속도

요약

NVIDIA가 하나의 체크포인트로 세 가지 생성 모드를 지원하는 Nemotron-Labs Diffusion 모델군을 출시했습니다. 기존 자기회귀 방식 대비 최대 6.4배 빠른 토큰 처리량을 제공하며, 별도의 모델 교체 없이 설정만으로 속도와 정확도를 조절할 수 있습니다.

핵심 포인트

단일 체크포인트로 AR, Diffusion, Self-speculation 모드 지원
표준 자기회귀 디코딩 대비 최대 6.4배 높은 토큰 처리량 달성
별도의 초안 모델 없이도 손실 없는 추측 디코딩 가능
애플리케이션 변경 없이 설정만으로 추론 모드 전환 가능

NVIDIA가 방금 Nemotron-Labs Diffusion을 출시했습니다. 이는 오픈 웨이트 (open-weight) 언어 모델 제품군(3B, 8B, 14B 및 8B VLM 포함)으로, 애플리케이션 수준의 변경 없이 동일한 체크포인트(checkpoint)에서 자기회귀 (autoregressive), 확산 (diffusion), 또는 자기 추측 (self-speculative)이라는 세 가지 별개의 생성 모드로 실행될 수 있습니다. 핵심 수치는 다음과 같습니다. 표준 자기회귀 디코딩 (autoregressive decoding) 대비 6.4배 높은 토큰 처리량 (token throughput)을 기록했으며, 벤치마크에서는 Qwen3 8B와 대등하거나 이를 능가하는 정확도를 보여줍니다. "자기회귀 및 확산 생성은 별개의 모델 제품군이 되어서는 안 됩니다. 이들은 동일한 모델의 기능이어야 합니다."

실제로 무엇이 바뀌었는가
자기회귀 LLM (Autoregressive LLMs)은 한 번에 하나의 토큰씩, 모든 토큰마다 전체 모델 패스 (full model pass)를 거쳐야 한다는 엄격한 제약이 있습니다. 이는 품질 측면에서는 괜찮지만, 낮은 배치 크기 (batch sizes)에서의 처리량 측면에서는 가혹합니다. GPU가 연산 (compute)이 아닌 메모리 작업 (memory ops)에 대부분의 시간을 소비하기 때문입니다. Nemotron-Labs Diffusion은 (확산 모델을 처음부터 학습시키는 대신) 사전 학습된 AR 모델 위에 병렬 초안 작성 (parallel drafting)을 추가함으로써 이 제약을 깨뜨립니다.

배포 시 전환 가능한 세 가지 모드:

자기회귀 (Autoregressive) — 표준적인 왼쪽에서 오른쪽 방향 디코딩. 현재 실행 중인 모든 것과 하위 호환됩니다.
확산 (Diffusion, FastDiffuser) — 한 번에 32개 토큰 블록을 생성하며, 토큰이 신뢰 임계값 (confidence threshold)에 도달할 때까지 반복적으로 노이즈를 제거 (denoising)합니다. 여기서 원시 처리량 (raw throughput) 이득이 발생합니다.
자기 추측 (Self-speculation, LinearSpec / QuadraticSpec) — 모델이 확산을 사용하여 양방향으로 블록 초안을 작성한 다음, AR을 사용하여 인과적으로 이를 검증합니다. 온도 (temperature) 0에서 손실이 없습니다 (Lossless).

H100/B200에서 약 865 tok/s에 도달하며, 이는 동일한 하드웨어에서 AR 기준점 대비 대략 4~6배 빠른 속도입니다. 모델은 NVIDIA Nemotron 오픈 모델 라이선스 (NVIDIA Nemotron Open Model License, 상업적으로 친화적) 하에 사용할 수 있습니다. SGLang 지원은 오픈 PR을 통해 곧 제공될 예정입니다.

이것이 중요한 이유
대부분의 "빠른 추론 (fast inference)" 방식은 다음 중 하나를 선택하도록 강요합니다: 더 작은 모델, 다른 모델, 또는 별도로 관리해야 하는 초안 모델 (draft model)이 포함된 추측 디코딩 (speculative decoding) 설정입니다. Nemotron은 이 모든 것을 하나의 체크포인트에 묶었습니다. 배포 관점에서의 이야기가 실무자들에게 이 모델을 주목하게 만드는 핵심입니다.

단 한 줄의 설정(config)만 변경하면 추론 모드(inference modes)를 전환할 수 있습니다. 가중치(weights), 엔드포인트(endpoint), 애플리케이션 코드는 모두 동일합니다. 덕분에 스택을 다시 구축할 필요 없이 속도와 정확도 사이의 트레이드오프(tradeoff)를 훨씬 쉽게 조정할 수 있습니다. 특히 셀프 투기적 모드(self-speculative mode)가 흥미로운데, 이는 본질적으로 별도의 초안 모델(draft model)이 없는 투기적 디코딩(speculative decoding)입니다. AR 검증 패스(AR verification pass) 덕분에 온도(temperature) 0에서도 출력 품질이 유지되며, 이는 일반적으로 프로덕션(production) 환경에서 원하는 방식입니다. 학습 방식 또한 주목할 만합니다. 이들은 사전 학습된 AR 모델에서 시작하여 1.3T 토큰에 대해 AR + 확산(diffusion) 결합 목적 함수로 추가 사전 학습(continued pretraining)을 진행했습니다. 처음부터 학습하는 대신 기존 가중치를 활용하는 것은 중요한 실무적 지름길이며, AR 능력을 포기하는 대신 이를 보존할 수 있게 해줍니다.

만약 추론 인프라(inference infrastructure)를 평가 중이라면: Nemotron-Labs Diffusion 8B는 현재 설정과 비교하여 벤치마크를 수행할 구체적인 후보입니다. 배치 크기(batch size) 1에서 셀프 투기적 모드가 보여주는 4~6배의 처리량(throughput) 이득은 테스트해 볼 가치가 있습니다. 바로 그 지점이 AR 모델이 성능을 가장 많이 남겨두는 부분이기 때문입니다.

만약 지연 시간(latency)에 민감한 앱을 서비스 중이라면: SGLang PR을 주의 깊게 살펴보세요. 메인(main) 브랜치에 반영되면, API 레이어를 건드리지 않고도 Nemotron을 더 빠른 드롭인(drop-in) 교체 모델로 사용할 수 있게 됩니다.

만약 아키텍처(architecture)에 관심이 있다면: GitHub에 공개된 기술 보고서(technical report)와 학습 레시피(training recipe)를 모두 확인할 수 있습니다. 이것은 연구용 데모가 아닌, 확산 언어 모델(diffusion LMs)의 실용적인 구현체입니다.

출처: HuggingFace의 NVIDIA Nemotron-Labs Diffusion · 모델 컬렉션 ✏️ KewBot(AI) 작성, Drew 편집 및 승인.

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA의 Nemotron Diffusion: 하나의 모델, 세 가지 생성 모드, 6배 빠른 속도

요약

핵심 포인트

댓글