NVIDIA Blackwell, MLPerf Training 6.0 석권, GB300 1.6배 속도 향상 달성

요약

NVIDIA Blackwell 플랫폼이 MLPerf Training 6.0의 7개 벤치마크 전 영역을 석권했습니다. 특히 GB300 NVL72 시스템은 NVFP4 정밀도를 활용해 이전 세대 대비 최대 1.6배 빠른 학습 성능을 기록했습니다.

핵심 포인트

MLPerf Training 6.0의 7개 벤치마크 전 영역 석권
GB300 NVL72, GB200 대비 최대 1.6배 빠른 학습 성능 달성
NVFP4 정밀도 도입을 통한 연산 밀도 및 학습 효율 향상
8,192개 GPU 규모의 대규모 MoE 학습 최적화 지원

NVIDIA Blackwell이 7개 벤치마크 전 영역에서 MLPerf Training 6.0을 석권했습니다. GB300 NVL72는 NVFP4 정밀도와 8,192개의 GPU를 사용하여 GB200 NVL72 대비 1.6배의 속도 향상을 제공했습니다.

NVIDIA Blackwell은 MLPerf Training 6.0의 7개 벤치마크를 모두 휩쓸었습니다. GB300 NVL72는 8,192개의 GPU에 걸쳐 NVFP4 정밀도를 사용하여 GB200 NVL72보다 최대 1.6배 빠른 학습 성능을 제공했습니다.

주요 사실 (Key facts)

NVIDIA는 MLPerf Training 6.0의 7개 벤치마크를 모두 석권했습니다.
GB300 NVL72는 GB200 NVL72보다 최대 1.6배 빠른 학습을 달성했습니다.
DeepSeek-V3 671B 모델이 NVLink를 통해 8,192개의 GPU에서 학습되었습니다.
새로운 MoE (Mixture-of-Experts) 워크로드인 DeepSeek-V3 671B 및 GPT-OSS-20B가 추가되었습니다.
Nemotron 3 Ultra 550B 파라미터 모델에 NVFP4 정밀도가 사용되었습니다.

NVIDIA의 블로그 게시물에 따르면, NVIDIA의 Blackwell 플랫폼은 AI 학습 성능에 대한 최신 동료 검토(peer-reviewed) 산업 벤치마크 제품군인 MLPerf Training 6.0을 지배했습니다. 이 플랫폼은 두 가지 새로운 MoE (Mixture-of-Experts) 사전 학습(pretraining) 워크로드인 DeepSeek-V3 671B 및 GPT-OSS-20B를 포함하여 모든 벤치마크에서 가장 빠른 학습 시간을 기록했습니다. NVIDIA는 해당 제품군 내 7개 벤치마크 전체에 걸쳐 제출을 완료한 유일한 플랫폼이었습니다.

가장 눈에 띄는 결과는 GB300 NVL72 랙 스케일(rack-scale) 시스템에서 나왔으며, 이는 동일한 규모에서 GB200 NVL72보다 최대 1.6배 빠른 학습을 제공했습니다. 이러한 향상을 이끄는 주요 Blackwell Ultra 기능에는 NVFP4 정밀도를 통한 더 높은 연산 밀도, 확장된 메모리 용량, 그리고 GPU가 피크 성능을 유지할 수 있게 하는 더 높은 전력 한계(power ceiling)가 포함됩니다. NVIDIA는 또한 대규모 및 소규모 사전 학습(pretraining)뿐만 아니라 미세 조정(fine-tuning) 워크로드 전반에서 엄격한 정확도 요구 사항을 충족하면서 성능을 높이는 NVFP4 학습 방법도 선보였습니다.

대규모 MoE 학습

대규모 MoE (Mixture-of-Experts) 학습은 MoE 추론과 동일한 all-to-all 통신 과제에 직면합니다. 즉, 토큰이 올바른 전문가 서브네트워크 (expert subnetwork)에 도달하기 위해 GPU 간에 라우팅되어야 합니다. NVIDIA의 5세대 NVLink 스위치는 각 랙 규모 시스템 내의 72개 GPU 전체를 높은 대역폭으로 연결하여 컴퓨팅과 메모리의 통합된 풀 (pool)로 결합하며, 이를 통해 GPU들이 하나의 거대한 GPU처럼 작동할 수 있게 합니다. [NVIDIA에 따르면], 이러한 NVLink 대역폭의 이점이 MoE 학습을 대규모에서 빠르고 효율적으로 만드는 핵심입니다.

대규모 분산 학습 (distributed training)을 지원하기 위해, NVIDIA는 두 가지 상호 보완적인 스케일아웃 (scale-out) 네트워킹 플랫폼인 NVIDIA Quantum InfiniBand와 NVIDIA Spectrum-X Ethernet을 제공하여, 데이터 센터가 자체 인프라에 최적화된 대규모 클러스터를 구축할 수 있는 유연성을 제공합니다. DeepSeek-V3 671B 모델의 경우, NVIDIA는 MLPerf Training 역사상 가장 큰 Blackwell 클러스터인 8,192개의 GPU를 사용한 결과를 제출했습니다.

역사적 맥락 및 경쟁 상황

이번 석권은 NVIDIA가 맞춤형 실리콘 (custom silicon) 및 대안 아키텍처로부터 증가하는 경쟁에 직면한 가운데 이루어졌습니다. Google의 TPU v6, AMD의 MI400, 그리고 Cerebras CS-3는 모두 이전 MLPerf 라운드에서 경쟁력 있는 결과를 발표한 바 있습니다. 그러나 모든 벤치마크에 걸쳐 결과를 제출한 유일한 벤더이면서, 가장 빠른 단일 시스템 성능과 가장 큰 규모의 분산 학습 결과를 모두 제공할 수 있는 NVIDIA의 능력은 AI 학습 인프라 분야에서의 지배적인 위치를 더욱 공고히 합니다.

Blackwell이 2026년 초에 도입되었다는 점을 고려할 때, GB200 NVL72 대비 GB300 NVL72의 1.6배 속도 향상은 특히 주목할 만합니다. 이러한 빠른 세대 간 개선은 NVIDIA의 엔지니어링 속도가 여전히 공격적임을 시사하며, 이는 아마도 1년 주기 아키텍처를 유지하라는 Jensen Huang의 지침에 따른 것으로 보입니다.

주목해야 할 점

2026년 4분기에 발표될 예정인 MLPerf Inference 7.0 결과를 주목해야 합니다. 이 시점에서 NVIDIA는 지연 시간 민감형 워크로드 (latency-sensitive workloads)에서 AMD의 MI400 및 Google의 TPU v6로부터 압박을 받게 될 것입니다. 또한, CoreWeave나 다른 클라우드 제공업체들이 NVIDIA의 8,192-GPU DeepSeek-V3 학습 결과를 자체 클러스터에서 재현할 수 있는지 모니터링해야 하며, 만약 가능하다면 이는 확장성 (scalability) 주장을 독립적으로 검증하는 계기가 될 것입니다.

Watch NVIDIA CEO Jensen Huang's GTC Taipei Keynote Replay

How the UK Is Turning Sovereign AI Ambition Into Action With NVIDIA Technologies

Industrial Software Leaders Build Secure, Autonomous AI Engineers With NVIDIA NemoClaw

출처: blogs.nvidia.com

핵심 요약 (Key Takeaways)

NVIDIA Blackwell은 7개 벤치마크 전반에 걸쳐 MLPerf Training 6.0을 석권했습니다.
GB300 NVL72는 NVFP4 및 8,192개의 GPU를 사용하여 GB200 NVL72 대비 1.6배의 속도 향상을 달성했습니다.

원문 게시: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기