Nemotron-Labs Diffusion 언어 모델을 통한 빛의 속도에 가까운 텍스트 생성

대규모 언어 모델 (LLMs)은 코드 생성, 수학 문제 풀이, 요약, 문서 이해 및 기타 많은 개발자 워크플로우를 위한 기본 인터페이스가 되었습니다. 하지만 내부적으로 많은 LLM은 여전히 동일한 방식으로 텍스트를 생성합니다. 즉, 한 번에 하나의 토큰 (token)씩 생성하며, 각 토큰은 이전에 나타난 토큰들에 의존합니다. 따라서 이러한 모델들은 자신의 출력을 다시 소비하기 때문에 자기회귀 (autoregressive) 모델이라고 불립니다.

이러한 자기회귀 (AR) 방식은 매우 성공적이었습니다. 학습이 안정적이고 서비스 제공이 단순하며, 현대 언어 모델링 발전의 상당 부분을 책임지고 있습니다. 하지만 이는 또한 명확한 한계를 만듭니다. 새로운 토큰이 생성될 때마다 전체 모델 패스 (pass)가 필요하며, 계산을 시작하기 전에 모든 가중치 (weight)를 메모리에서 로드해야 합니다. 지연 시간 (latency)에 민감한 애플리케이션을 구축하거나, 더 작은 배치 크기 (batch size)를 실행하거나, 현대적인 GPU를 더 잘 활용하려는 개발자들에게 있어, 토큰 단위의 생성 방식은 GPU 시간의 대부분을 계산보다는 메모리 작업에 소비하게 만들어 성능 손실을 초래할 수 있습니다.

또한, 자기회귀 모델에 의해 토큰이 한 번 생성되면 그것은 확정되며, 이전 토큰을 수정하는 능력을 본질적으로 가지고 있지 않습니다. 결과적으로 생성 과정 중에 실수가 전파될 수 있습니다.

Nemotron-Labs Diffusion은 새로운 발전 방향을 제시합니다. 바로 여러 개의 토큰을 병렬로 생성한 다음, 여러 단계에 걸쳐 생성된 토큰을 반복적으로 정제하는 확산 언어 모델 (diffusion language models, DLM)입니다. 이러한 모델은 현대 GPU의 계산 모델을 더 잘 활용하여 상당한 런타임 성능 이점을 제공할 뿐만 아니라, 생성된 토큰을 수정할 수 있어 기존 텍스트를 수정하거나 중간 채우기 (fill-in-the-middle) 목적을 달성하는 데 더 적합합니다. 이러한 생성 및 정제 (generate-and-refine) 특성은 추론 예산 (inference budget)을 제어할 수 있는 내장된 방법도 제공합니다. 정제 단계의 수를 줄임으로써 런타임 시 이러한 모델의 계산 요구 사항을 줄일 수 있습니다.

Nemotron-Labs Diffusion 제품군은 3B, 8B, 14B 규모의 텍스트 모델을 포함하며, 이들은 모두 상업적으로 친화적인 NVIDIA Nemotron Open Model License 하에 제공됩니다. 또한, NVIDIA Source Code License를 통해 폭넓은 연구 유연성을 보장하는 8B 규모의 시각-언어 모델 (VLM)도 제공됩니다. NVIDIA는 이 라인업 전반에 걸쳐 베이스 모델 (base models)과 인스트럭션 튜닝된 채팅 변형 모델 (instruction-tuned chat variants)을 모두 출시합니다. 또한 NVIDIA는 NVIDIA Megatron Bridge 프레임워크를 통해 이러한 모델들을 학습시키기 위한 코드도 함께 공개합니다.

HuggingFace의 NVIDIA Nemotron-Labs Diffusion 모델 컬렉션
GitHub의 학습 레시피 및 코드
기술 보고서 (Technical report)

Nemotron-Labs Diffusion은 단순한 아이디어를 바탕으로 설계되었습니다: 자기회귀 (Autoregressive, AR) 생성과 확산 (Diffusion) 생성이 서로 별개의 모델 제품군이어서는 안 된다는 것입니다. 이들은 동일한 모델의 기능(capabilities)이어야 합니다. 이 모델은 세 가지 생성 모드를 지원합니다:

자기회귀 (Autoregressive) 모드는 표준적인 왼쪽에서 오른쪽으로 진행되는 LLM처럼 작동합니다. 이는 개발자들이 이미 익숙한 생성 워크플로우와의 호환성을 유지해 줍니다.

확산 (Diffusion) 모드는 블록 단위로 생성하며, 여러 단계에 걸쳐 점진적으로 토큰을 생성합니다.

자기 추측 (Self-speculation) 모드는 확산을 사용하여 여러 후보 토큰의 초안을 작성한 다음, 자기회귀 디코딩 (autoregressive decoding)을 사용하여 이를 검증합니다. 이는 확산 방식 초안 작성의 속도 잠재력과 AR 검증의 신뢰성을 결합한 것입니다.

이러한 유연한 설계는 예측 불가능한 배치 크기(batch sizes)를 가진 워크로드나 단일 쿼리(배치 크기=1) 환경에서도 속도와 정확도가 모두 중요한, 개발자 지향적인 핵심 기능입니다. 원하는 추론 모드를 선택하는 것은 배포 시점의 설정이므로 애플리케이션 수준에서 거의 변경이 필요하지 않습니다. 따라서 개발자들은 현재 사용 중인 모델과 초고속 생성 속도를 위한 다양한 추론 모드의 Nemotron-Labs Diffusion 사이를 원활하게 전환할 수 있습니다.

Nemotron-Labs Diffusion 8B는 Qwen3 8B와 비교했을 때 평균 정확도가 1.2% 향상되었습니다. 한 번의 순전파당 토큰 수(TPF로 약칭, 토큰 디코딩 효율을 측정하는 하드웨어 독립적 수단)로 측정된 추론 속도를 비교하면, 디퓨전 모드(diffusion mode)는 자기회귀 (AR) 모델보다 2.6배 높은 TPF에 도달합니다. 또한 셀프 스펙큘레이션 (self-speculation)을 적용하면 선형 셀프 스펙큘레이션 (linear self-speculation)의 경우 6배, 이차 셀프 스펙큘레이션 (quadratic self-speculation)의 경우 6.4배까지 속도가 향상되면서도 평가된 작업 전반에서 대등한 정확도를 유지합니다.

디퓨전 언어 모델 (Diffusion language models)은 수년간 유망한 기술로 여겨져 왔으나, 역사적으로 실질적인 장벽이 존재했습니다. 강력한 AR 모델보다 낮은 정확도, 더 어려운 학습 과정, 그리고 KV 캐싱 (KV caching)과의 제한적인 호환성이 그것입니다.

최근의 연구들이 이러한 흐름을 바꾸었습니다. Efficient-DLM은 사전 학습된 AR 모델이 지속적인 사전 학습 (continued pretraining)과 어텐션 메커니즘 (attention mechanism)을 블록 단위 방식 (block-wise approach)으로 변경함으로써 디퓨전 언어 모델로 변환될 수 있음을 보여주었습니다. 이러한 설계는 AR 모델의 능력을 보존하는 동시에 KV 캐시 친화적인 병렬 디코딩 (parallel decoding)을 가능하게 합니다.

Nemotron-Labs Diffusion은 동일한 실용적 통찰력을 바탕으로 구축되었습니다: 기존 AR 모델에 디퓨전 기능을 추가하는 것입니다. 이 모델은 AR과 디퓨전 목적 함수 (objective)를 결합하여 학습되었으며, 이를 통해 초기 AR 학습 동안 습득한 지식을 유지하면서 디퓨전을 통해 병렬 초안 작성 (parallel drafting) 능력을 추가할 수 있었습니다. 이 모델은 NVIDIA Nemotron Pretraining 데이터셋의 1.3T 토큰으로 사전 학습되었으며, NVIDIA Nemotron Post-training 데이터셋의 45B 토큰을 사용한 추가적인 지도 미세 조정 (supervised fine-tuning) 단계를 거쳤습니다.

Nemotron-Labs Diffusion 모델의 배포는 곧 SGLang의 메인 브랜치에서 지원될 예정입니다. 이 글을 쓰는 시점에는 GitHub의 이슈 트래커 요청을 통해 추론 지원을 이용할 수 있습니다.

흥미로운 점은 통합을 통해 알고리즘 설정의 단 한 줄만으로 동일한 체크포인트 (checkpoint)를 세 가지 다른 방식으로 서비스할 수 있다는 것입니다:

일반 자기회귀 (Plain autoregressive)- ar_mode=true 설정

모델이 다른 인과적 언어 모델 (Causal LM)과 동일하게 동작합니다. 이는 정답 참조용(correctness reference)으로 유용하거나, 순수 자기회귀 (AR) 출력에 대한 무결성 검사 (sanity check)가 필요한 경우에 적합합니다.

디퓨전 모드 (Diffusion mode, FastDiffuser)- 원시 처리량 (raw throughput)의 핵심입니다. 모델은 반복적인 디노이징 (denoising) 과정을 통해 한 번에 32개 토큰 블록을 채워 넣으며, 신뢰도 임계값 (confidence threshold)을 통해 각 단계에서 어떤 토큰을 확정할지 결정합니다.

자기 추측 (Self-speculation, LinearSpec)- 저희가 가장 선호하는 방식입니다. 동일한 모델이 블록을 양방향 (bidirectionally)으로 초안을 작성한 후, 이를 인과적 (causally)으로 검증합니다. 일치하는 접두사 (prefix)는 모두 확정됩니다. 온도 (temperature) 0에서 AR 방식과 비교했을 때 손실이 없으면서도, speedbench 데이터셋 기준 B200에서 약 865 tok/s를 기록했습니다. 이는 동일한 하드웨어에서 자기회귀 (autoregressive) 베이스라인보다 약 4배 빠른 속도입니다.

Nemotron-Labs Diffusion은 디퓨전 스타일의 생성을 개발자들이 실제로 사용할 수 있는 형태로 가져왔습니다. 즉, 오픈 모델, 익숙한 AR 호환성, 디퓨전 디코딩 (diffusion decoding), 그리고 자기 추측 가속 (self-speculative acceleration)을 하나의 제품군에 담았습니다. Nemotron-Labs Diffusion을 통해 개발자들은 기존 애플리케이션을 변경할 필요 없이 텍스트 생성을 초안 작성, 정제, 검증 및 가속화할 수 있는 새로운 방법을 얻게 됩니다.

시작하려면 Nemotron-Labs Diffusion 모델 제품군을 탐색하고, 기술 보고서 (technical report)를 읽고, 사용 가능한 학습 레시피 (training recipe)를 시도해 보세요.

Nemotron-Labs Diffusion 언어 모델을 통한 빛의 속도에 가까운 텍스트 생성

요약

핵심 포인트

댓글