본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 11:41

Nemotron-TwoTower: 사전 학습된 자기회귀(Autoregressive) 컨텍스트를 활용한 확산 언어 모델링 (Diffusion

요약

NVIDIA가 제안하는 Nemotron-TwoTower는 컨텍스트 처리와 노이즈 제거 역할을 두 개의 타워로 분리한 블록 단위 자기회귀 확산 모델입니다. 기존 자기회귀 모델의 품질을 유지하면서도 생성 처리량을 2.42배 향상시킨 것이 특징입니다.

핵심 포인트

  • 컨텍스트 타워와 확산 노이즈 제거 타워를 분리하여 모델 용량 최적화
  • 자기회귀 베이스라인 대비 98.7%의 높은 품질 유지
  • 실제 시간 생성 처리량(Wall-clock throughput) 2.42배 향상
  • Nemotron-3-Nano-30B-A3B 기반의 오픈 웨이트 모델 공개

확산 언어 모델 (Diffusion language models)은 병렬 및 반복적 생성 가능성 덕분에 자기회귀 (Autoregressive) 모델에 대한 유망한 대안을 제공합니다. 그러나 기존 방식은 컨텍스트 표현 (Context representation)과 반복적 노이즈 제거 (Iterative denoising) 모두에 단일 네트워크를 사용하며, 이는 하나의 모델이 두 역할을 모두 수행하도록 강제하여 각 역할에 대한 용량을 제한합니다. 우리는 이러한 역할들을 두 개의 타워로 분리하는 블록 단위 자기회귀 확산 모델 (Block-wise autoregressive diffusion model)인 TwoTower를 제안합니다. 이 모델은 깨끗한 토큰을 인과적으로 처리하는 동결된 AR 컨텍스트 타워 (Frozen AR context tower)와, 컨텍스트에 대한 교차 주의 집중 (Cross-attention)을 통해 노이즈가 있는 블록을 정제하는 양방향 블록 주의 집중 (Bidirectional block attention)을 갖춘 학습 가능한 확산 노이즈 제거 타워 (Trainable diffusion denoiser tower)로 구성됩니다. 약 2.1T 토큰으로 학습된 오픈 웨이트 (Open-weight) 30B 하이브리드 Mamba-Transformer MoE 모델인 Nemotron-3-Nano-30B-A3B를 기반으로 구축된 Nemotron-TwoTower는, 자기회귀 베이스라인 품질의 98.7%를 유지하면서도 실제 시간 생성 처리량 (Wall-clock generation throughput)은 2.42배 더 높습니다. 우리는 https://huggingface.co/collections/nvidia/nemotron-twotower 에서 코드와 모델 가중치를 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0