속도에 집중한 550B, NVIDIA Nemotron 3 Ultra의 내부를 읽다

오픈 웨이트 (Open-weight) LLM의 「똑똑함」을 논할 때, 우리는 대개 벤치마크 순위표를 본다. NVIDIA가 6월 4일에 공개한 Nemotron 3 Ultra는 그 순위표에서 세계 1위를 차지하러 나온 모델이 아니다. 550B라는 규모에 비해 지능 지수 종합 점수에서는 중국 세력인 Kimi K2.6에 뒤처진다. 그럼에도 불구하고 이 모델이 흥미로운 이유는, 승부처를 「똑똑함」이 아니라 「동일한 정밀도를 얼마나 더 빠르고 저렴하게 낼 수 있는가」에 두고, 이를 위해 아키텍처 (Architecture)를 밑바닥부터 재구성했기 때문이다. 장시간 계속 움직이는 에이전트 (Agent)를 실제로 운용한 경험이 있는 사람일수록, 이러한 결단력에 공감할 것이라 생각한다.

에이전트를 실무에서 돌리면, 지능 지수의 몇 포인트 차이보다 초당 몇 토큰을 뱉어낼 수 있는지, 100만 토큰의 문맥 (Context)을 품었을 때 비용이 얼마인지가 더 중요하다. 도구를 수십 번 호출하고, 긴 이력을 지니며 돌아다니고, 실패하면 다시 시도한다. 그 총비용은 「똑똑함」이 아니라 「단위 비용당 처리량」으로 결정된다.

NVIDIA는 Nemotron 3 Ultra를 바로 이러한 「길게 달리는 에이전트」를 위한 모델로 위치시키고 있다. 실제로 독립 평가 기관인 Artificial Analysis에 의한 종합 지능 지수 (Intelligence Index)는 47.7(NVFP4 가중치)/48.2(BF16)로, 미국산 오픈 웨이트 모델 중에서는 독보적이지만, Kimi K2.6의 53.9에는 미치지 못한다. 코딩 지수에 있어서는 불과 31B 규모인 Gemma 4에 약 1점 뒤처져 있다. 똑똑함의 절대치 측면에서는 날카롭지 않다.

대신 NVIDIA가 과시하는 것은 처리량 (Throughput)이다. 공식 수치에 따르면, 동일한 오픈 소스 계열인 GLM-5.1-754B, Kimi-K2.6-1T, Qwen-3.5에 대해 각각 5.9배·4.8배·1.6배의 추론 처리량을 주장하며, 100만 토큰 문맥에서의 장문 이해 벤치마크인 RULER에서 최고 정밀도를 기록했다고 한다. 프리릴리스 (Pre-release) 실기 계측에서는 초당 400 토큰 이상이 나오고 있다. 순위표가 아니라 청구서로 승부하겠다는 설계 사상이다.

그 속도는 어디에서 오는가. HuggingFace의 모델 카드가 밝히는 아키텍처는 최근의 효율화 테크닉을 모두 집약한 구성이다. NVIDIA는 이를 LatentMoE라고 부르며, 「Mamba-2 층과 MoE 층을 교대로 배치하고, 그곳에 일부 어텐션 (Attention) 층을 삽입한다」고 설명한다. 생소한 용어가 이어지므로, 하나씩 무엇을 해결하고 있는지 분해해 보고자 한다.

첫째, MoE (Mixture-of-Experts). 총 파라미터 (Parameter)는 550B에 달하지만, 1 토큰을 처리할 때 실제로 움직이는 것은 55B뿐이다. 전문가 (Expert)를 다수 준비하여 토큰마다 일부만 기동한다. 거대한 지식을 보유하면서도 1회 계산량은 작게 유지할 수 있다. 이것이 「550B임에도 가볍다」는 정체이다.

둘째, Mamba. 일반적인 Transformer의 어텐션은 시퀀스 (Sequence)가 길어지면 계산량이 토큰 수의 제곱으로 늘어난다. 100만 토큰을 정면으로 대응하는 것은 현실적이지 않다. Mamba는 상태 공간 모델 (SSM)이라 불리는 계통으로, 시퀀스를 거의 선형적인 비용으로 흘려보낼 수 있다. 장문 문맥일수록 효과적이다. 다만 전부를 Mamba로 교체하면 품질이 떨어지기 때문에, 요처에만 어텐션을 남겨둔다. 이것이 「하이브리드 (Hybrid)」의 의미다. 장문 문맥의 저렴함 (Mamba)과 표현력 (Attention)의 장점만을 취하는 것을 목표로 한다.

셋째, MTP (Multi-Token Prediction)를 통한 투기적 디코딩 (Speculative Decoding). 일반적인 LLM은 1 스텝에 1 토큰만 생성하지만, Nemotron 3 Ultra는 MTP 층을 내장하여 여러 토큰을 한꺼번에 예측하고 검증을 통해 통과시킨다. 일반적인 투기적 디코딩은 「초안 작성용 작은 모델」을 별도로 준비하지만, 이 모델은 모델 스스로가 초안 작성 기능을 가진다. NVIDIA가 「native (네이티브)」라고 쓰는 이유도 이 때문이다. 외부 장치 없이도 빨라진다.

또 하나 미미하지만 효과적인 것이 NVFP4를 이용한 사전 학습이다. 많은 모델은 일반적인 정밀도로 학습한 뒤 나중에 양자화 (Quantization)를 수행하지만, 이 모델은 처음부터 4bit 부동 소수점으로 학습을 진행한다. Blackwell 세대의 FP4 텐서 코어 (Tensor Core)를 전제로 설계되어, 추론 시의 메모리와 대역폭을 애초에 작게 설계했다. 나아가 추론 시 얼마나 「생각할지」를 조정하는 reasoning budget control (추론 예산 제어) 기능도 갖추고 있다.

요컨대 이 모델은 똑똑함의 마지막 몇 포인트를 깎아내더라도, 장문 문맥·고처리량·저비용에 올인한 설계다. 에이전트 기반을 구축하는 입장에서는 이러한 우선순위가 솔직하게 느껴져 호감이 간다.

공개된 것은 Ultra 단독이 아니다. NVIDIA는 제품군(Family)으로서 약 30B(액티브 3B) 규모의 Nano, 약 100B(동일 10B) 규모의 Super, 그리고 Ultra까지 총 3가지 사이즈를 출시했다. 또한 사전 학습(Pre-training), 사후 학습(Post-training), 강화학습(RL)을 위해 총 3조 개의 토큰으로 구성된 데이터셋과 NeMo Gym, NeMo RL과 같은 학습용 라이브러리까지 공개하고 있다. Ultra 자체도 NVFP4 양자화(Quantization) 버전, BF16 사후 학습 버전, BF16 베이스 버전, 보상 모델(GenRM)의 4가지 체크포인트가 제공된다. 가중치(Weights)뿐만 아니라 만드는 방법 자체를 공개하려는 자세다.

여기서 실무자들이 주의 깊게 살펴봐야 할 점은 라이선스다. 소스를 대조해 보면 차이점이 발견된다. GitHub 개발자 리포지토리(Repository)에는 Apache 2.0 배지가 붙어 있지만, 이는 레시피나 코드 측면의 이야기이며, 모델 카드(Model Card)를 확인하면 Ultra의 **가중치 본체는 「OpenMDW License Agreement, version 1.1」**로 되어 있다. OpenMDW는 Linux Foundation 계열의 비교적 완화된 오픈 웨이트(Open Weights)용 라이선스이지만, Apache 2.0과는 별개의 것이다. "리포지토리가 Apache 2.0이니까 가중치도 자유롭겠지"라고 성급히 판단하지 말고, 사용하는 결과물마다 라이선스를 확인해 두어야 한다. 상용 도입을 검토한다면 이 부분이 가장 먼저 짚고 넘어가야 할 포인트가 될 것이다.

사용법 자체는 직관적이다. 모델 카드에는 vLLM으로 바로 구동하는 예시가 실려 있다.

vllm serve nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 \
--host 0.0.0.0 \
--port 8000 \
...

Transformers에서 직접 다룬다면 리포지토리 ID를 지정하기만 하면 된다.

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained(
"nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16"
...

단, BF16 버전의 Ultra를 구동하려면 모델 카드 기재 내용에 따라 최소 8개의 B200급 GPU가 필요하다. 개인이 가볍게 돌릴 수 있는 규모가 아니다. 직접 테스트해 보고 싶다면 우선 30B 규모의 Nano(nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16)부터 시작하는 것이 현실적일 것이다. Nano는 이미 HuggingFace뿐만 아니라 Baseten이나 Fireworks 등의 프로바이더를 통해서도 제공되고 있으며, NIM 마이크로서비스(Microservice)로도 구현되어 있다.

Nemotron 3 Ultra는 오픈 웨이트 경쟁의 축이 조용히 이동하고 있음을 보여주는 사례라고 느낀다. 얼마 전까지만 해도 "어떤 모델이 오픈 소스 중 가장 똑똑한가"가 논의의 중심이었지만, 에이전트가 몇 시간씩 구동되고 토큰이 무제한으로 쌓이는 시대에는 동일한 정확도를 얼마나 더 빠르게, 얼마나 더 저렴하게 뽑아낼 수 있는지가 운영의 성패를 좌우한다. Mamba와 어텐션(Attention)의 하이브리드 구조에 FP4 학습과 네이티브 투기적 디코딩(Speculative Decoding)을 결합하여, 지능의 절대치가 아닌 비용 효율성에 승부수를 던진 이 550B 모델은 그 흐름을 아키텍처의 언어로 표명하고 있다.

지능 지수(IQ)가 세계 최고가 아니라는 점을 약점으로 볼 것인지, 아니면 전략적 선택으로 볼 것인지는 입장에 따라 다르다. 하지만 "오래 작동하는 에이전트를 저렴하게 돌리고 싶다"라는, 현재 많은 개발 현장이 안고 있는 구체적인 고민에 대해 설계 단계에서부터 명확한 답을 내놓은 모델임은 틀림없다. 가중치와 데이터가 모두 공개되어 있으니, 관심이 있다면 Nano부터 적용해 보는 것이 좋다.

속도에 집중한 550B, NVIDIA Nemotron 3 Ultra의 내부를 읽다

요약

핵심 포인트

댓글