arXiv논문2026. 06. 26. 11:41

Nemotron-TwoTower: 사전 학습된 자기회귀(Autoregressive) 컨텍스트를 활용한 확산 언어 모델링 (Diffusion

요약

NVIDIA가 제안하는 Nemotron-TwoTower는 컨텍스트 처리와 노이즈 제거 역할을 두 개의 타워로 분리한 블록 단위 자기회귀 확산 모델입니다. 기존 자기회귀 모델의 품질을 유지하면서도 생성 처리량을 2.42배 향상시킨 것이 특징입니다.

핵심 포인트

컨텍스트 타워와 확산 노이즈 제거 타워를 분리하여 모델 용량 최적화
자기회귀 베이스라인 대비 98.7%의 높은 품질 유지
실제 시간 생성 처리량(Wall-clock throughput) 2.42배 향상
Nemotron-3-Nano-30B-A3B 기반의 오픈 웨이트 모델 공개

확산 언어 모델 (Diffusion language models)은 병렬 및 반복적 생성 가능성 덕분에 자기회귀 (Autoregressive) 모델에 대한 유망한 대안을 제공합니다. 그러나 기존 방식은 컨텍스트 표현 (Context representation)과 반복적 노이즈 제거 (Iterative denoising) 모두에 단일 네트워크를 사용하며, 이는 하나의 모델이 두 역할을 모두 수행하도록 강제하여 각 역할에 대한 용량을 제한합니다. 우리는 이러한 역할들을 두 개의 타워로 분리하는 블록 단위 자기회귀 확산 모델 (Block-wise autoregressive diffusion model)인 TwoTower를 제안합니다. 이 모델은 깨끗한 토큰을 인과적으로 처리하는 동결된 AR 컨텍스트 타워 (Frozen AR context tower)와, 컨텍스트에 대한 교차 주의 집중 (Cross-attention)을 통해 노이즈가 있는 블록을 정제하는 양방향 블록 주의 집중 (Bidirectional block attention)을 갖춘 학습 가능한 확산 노이즈 제거 타워 (Trainable diffusion denoiser tower)로 구성됩니다. 약 2.1T 토큰으로 학습된 오픈 웨이트 (Open-weight) 30B 하이브리드 Mamba-Transformer MoE 모델인 Nemotron-3-Nano-30B-A3B를 기반으로 구축된 Nemotron-TwoTower는, 자기회귀 베이스라인 품질의 98.7%를 유지하면서도 실제 시간 생성 처리량 (Wall-clock generation throughput)은 2.42배 더 높습니다. 우리는 https://huggingface.co/collections/nvidia/nemotron-twotower 에서 코드와 모델 가중치를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Nemotron-TwoTower: 사전 학습된 자기회귀(Autoregressive) 컨텍스트를 활용한 확산 언어 모델링 (Diffusion

요약

핵심 포인트

댓글