NVIDIA Blackwell, MLPerf Training 6.0 석권: Strong Scaling

무엇인가: 2026년 6월 16일, NVIDIA의 Blackwell 플랫폼이 7개 모든 MLPerf Training 6.0 벤치마크에서 가장 빠른 기록을 달성했습니다. 이 설명에서 해당 결과를 해석하는 관점은 **Strong Scaling (강한 확장성)**입니다. 즉, 고정된 모델을 학습시킬 때 더 많은 GPU를 투입함에 따라 얼마나 더 빨라지는지를 의미합니다.

이유: 프런티어(Frontier) 사전 학습(Pretraining)은 이제 5,000~8,000-GPU 클러스터에서 실행되며, 단순히 얼마나 많은 GPU를 보유하고 있느냐가 아니라 해당 GPU들이 얼마나 잘 함께 확장(Scale)되느냐가 모델 학습에 소요되는 실제 시간(Wall-clock time)과 비용을 결정합니다.

이전과의 차이: 단순한 가정은 GPU가 두 배가 되면 시간은 절반이 된다는 것입니다. Strong Scaling은 이에 대한 현실적인 점검입니다. GPU가 **멈추고 동기화(Synchronize)**해야 하는 단계가 매번 존재하기 때문에, 연결이 느슨한 클러스터는 선형 미만(Sub-linear)의 속도 향상을 보이는 반면, **랙 규모의 NVLink 도메인 (Rack-scale NVLink domain)**은 이를 선형에 가깝게 유지합니다.

비유하자면

한 척의 배를 타고 결승선까지 경주하는 조정 팀을 생각해보세요.

                    2× THE ROWERS (GPUs)
                            │
              ┌─────────────┴─────────────┐
...

GPU = 노 하나를 젓는 한 명의 조정 선수
학습 단계 (Training step) = 팀 전체가 함께 젓는 한 번의 스트로크
그래디언트 동기화 (Gradient sync) = 모든 노가 동시에 물에 닿아야 하는 타이밍
GPU 추가 = 배에 조정 선수를 더 추가하는 것
NVLink 랙 도메인 (NVLink rack domain) = 거대한 팀이 완벽한 타이밍을 유지하도록 돕는 경주용 배와 키잡이(Coxswain)
저정밀도 연산 (Low-precision math) = 더 가벼운 노, 따라서 매 스트로크마다 움직여야 할 무게가 줄어듦

빠른 용어 정리

MLPerf Training — 업계 표준 학습 벤치마크입니다. 이는 한 가지만 측정합니다: 고정된 품질 목표에 도달하기 위해 모델을 학습시키는 데 걸리는 실제 시간 (Wall-clock time). 따라서 더 빠른 시간은 벤더의 최대 처리량(Peak-throughput) 수치가 아닌, 실제 비교 가능한 결과입니다.

Strong scaling (강한 확장성) — 문제의 규모를 고정하고(하나의 모델, 하나의 품질 목표), 더 많은 GPU를 추가하여 속도 향상을 측정합니다. 이와 형제 격인 **Weak scaling (약한 확장성)**은 하드웨어와 함께 문제의 규모도 키웁니다. Strong scaling은 GPU당 작업량은 계속 줄어드는 반면 조정 비용(Coordination cost)은 줄어들지 않기 때문에 더 어려운 테스트입니다.

Gradient synchronization (AllReduce, 그래디언트 동기화) — 각 GPU는 배치의 서로 다른 슬라이스(slice)를 학습하며, 다음 단계가 시작되기 전에 반드시 **그래디언트의 평균(average their gradients)**을 내야 합니다. 이러한 All-to-all 교환 — 즉 AllReduce — 은 하나의 장벽(barrier) 역할을 합니다. 모든 GPU가 따라잡을 때까지 아무도 다음 단계로 넘어갈 수 없습니다.

NVLink domain (NVL72, NVLink 도메인) — 5세대 NVLink로 연결된 72개의 GPU가 **하나의 일관된 고대역폭 패브릭 (one coherent, high-bandwidth fabric)**을 형성합니다. 이는 마치 하나의 거대한 가속기처럼 동작하는 단일 랙(rack)입니다. 이 빠른 패브릭 덕분에 동기화 장벽(synchronization barrier)에 드는 비용을 낮출 수 있습니다.

Low-precision math (FP8 / NVFP4, 저정밀도 연산) — 무거운 행렬 곱셈(matrix multiplies)을 16비트 대신 8비트 FP8 또는 4비트 NVFP4로 실행하여, 매 단계마다 이동해야 할 데이터와 계산해야 할 양을 줄입니다. Blackwell의 텐서 코어(tensor cores)는 이 두 형식을 모두 지원합니다.

Scaling efficiency (스케일링 효율성) — 실제 속도 향상(speedup)을 이상적인 속도 향상으로 나눈 값입니다. GPU를 두 배로 늘렸을 때 시간이 정확히 절반으로 줄어든다면 100% — 완벽한 선형(perfectly linear) 상태입니다. 이보다 낮은 수치는 GPU들이 서로를 기다리며 보낸 시간입니다.

뉴스. 2026년 6월 16일, NVIDIA는 자사의 Blackwell 플랫폼이 MLPerf Training 6.0의 7개 벤치마크 모두에서 가장 빠른 기록을 달성했다고 발표했습니다. 새로운 GB300 NVL72 랙은 이전의 GB200 NVL72보다 최대 1.6배 더 빠르게 학습했습니다. 제출된 결과는 8,192개의 GPU까지 확장되었습니다. CoreWeave는 DeepSeek-V3 671B를 목표치까지 2.02분 만에 학습시켰으며, Microsoft Azure는 8,192-GPU 규모에서 Llama 3.1 405B를 7.07분 만에 품질 목표에 도달시켰습니다. 이번 라운드에는 새로운 Mixture-of-Experts (MoE, 전문가 혼합) 사전 학습(pretraining) 워크로드도 추가되었습니다. 보도자료 읽기 →

조정(rowing) 팀을 상상해 보십시오. 결승선은 모델의 품질 목표이며, **팀 전체의 한 번의 스트로크(stroke)는 하나의 학습 단계(training step)**입니다. 모든 노잡이가 노를 젓고, 배가 앞으로 튀어나가면, 다음 스트로크를 위해 다시 준비합니다. 각 노잡이는 하나의 GPU이며, 동일한 경주의 서로 다른 조각을 담당하여 작업합니다. 핵심은 '캐치(catch)', 즉 노가 물에 닿는 순간입니다. 만약 모든 노가 배가 치솟는 동일한 순간에 물을 치면 배가 나아가지만, 조금이라도 타이밍이 어긋나면 힘이 상쇄되어 배가 출렁거리게 됩니다. 노잡이를 추가하면 배가 더 빨라져야 하지만, 이는 더 커진 팀이 여전히 함께 '캐치'를 맞출 수 있을 때만 가능합니다.

그 "~할 때만"이라는 조건이 이야기의 전부이며, 그 실제 명칭은 **강력한 확장성 (strong scaling)**입니다. 즉, 모델을 고정하고 GPU를 추가했을 때 실제 시간이 얼마나 단축되는지를 보는 것입니다. '캐치'가 곧 문제입니다. 매 단계마다 GPU는 다음 단계가 시작되기 전에 **중단하고 각자의 부분적인 결과들을 결합(combine)**해야 합니다. 데이터 병렬(data-parallel) 복제본 간의 그래디언트(gradients), 그리고 텐서 병렬(tensor-parallel) 및 전문가 병렬(expert-parallel) 그룹 내부에서 교환되는 활성화 함수(activations)와 가중치(weights)가 이에 해당합니다. 이러한 동기화(synchronization)는 팀원이 늘어날수록 커지는 세금과 같아서, GPU를 두 배로 늘려도 2배 미만의 성능 향상을 얻게 됩니다. 즉, 속도 향상 곡선이 직선 아래로 휘어지게 됩니다. 타이밍을 맞추지 못하는 팀처럼 미숙한 클러스터는 새로운 노잡이가 추가되어 얻는 이득의 대부분을 낭비하게 됩니다.

따라서 엔지니어링의 핵심은 '캐치' 비용을 낮추는 것입니다. NVIDIA의 해답은 **랙 스케일 NVLink 도메인 (rack-scale NVLink domain)**입니다. GB300 NVL72는 **72개의 GPU를 하나의 일관된 패브릭 (coherent fabric)**으로 묶어줍니다. 이는 거대한 팀이 단일 케이던스(cadence)를 유지하도록 만드는 경주용 보트와 키잡이(coxswain) 역할을 하여, 단계별 교환이 충분히 빠르게 완료되도록 함으로써 수천 개의 GPU가 여전히 거의 하나처럼 노를 저을 수 있게 합니다. 여기에 **낮은 정밀도 연산 (lower-precision math)**을 결합했습니다. Blackwell의 텐서 코어(tensor cores)는 행렬 곱셈(matmuls)을 8비트 FP8 및 4비트 NVFP4로 실행하여, 매 스트로크마다 움직여야 할 무게가 적은 더 가벼운 노를 사용하는 것과 같은 효과를 냅니다. 여기에 더 강력한 소프트웨어 스택을 더해, NVIDIA는 이러한 조합이 이번 석승의 비결이라고 설명합니다. GB300 랙은 이전 세대보다 최대 1.6배 더 빠르게 학습하며, 8,192개의 GPU는 몇 시간이 아닌 몇 분 만에 작업을 완료합니다.

MLPerf Training 6.0 결과	규모 (Scale)	시사점	목표 도달 시간
GB300 NVL72 vs GB200 NVL72	72-GPU 랙	하드웨어 세대 간 속도 향상	최대 ~1.6배 더 빠름
...

단 하나의 계산으로 보는 Strong scaling (강력한 확장성)

모델을 고정하십시오. — MLPerf의 품질 목표에 맞춰 학습된 671B 파라미터의 DeepSeek-V3 — 그리고 노를 젓는 사람(GPU)을 추가할 때 시계가 어떻게 움직이는지 지켜보십시오. 8,192개의 Blackwell GPU에서 CoreWeave의 실행은 2.02분 만에 완료되었습니다. 이제 Strong scaling (강력한 확장성) 질문을 던져보십시오. 만약 GPU를 절반만 사용했다면, 정확히 두 배의 시간이 걸렸을까요? 완벽한 Scaling (확장)이라면 그렇다고 답할 것입니다. 만약 (예시를 위해) 4,096-GPU 실행에 실제로 3.7분이 걸렸다고 가정해 봅시다. 그렇다면 GPU를 두 배로 늘렸을 때 시간은 3.7분에서 2.02분으로 단축되었습니다. 이는 **이상적인 2.0배가 아닌 1.83배의 속도 향상 (speedup)**입니다. 두 수치를 나누면 **약 92%의 Scaling efficiency (확장 효율)**를 얻게 됩니다. 사라진 약 8%는 GPU들이 서로를 기다리며 '캐치(catch)' 단계에서 보낸 시간입니다. 이 정도 규모에서 작업의 핵심은 그 수치를 100%에 가깝게 유지하는 것이며, 이것이 바로 더 빠른 NVLink fabric (패브릭)과 더 가벼운 저정밀도 (low-precision) 노가 필요한 이유입니다. (2.02분, 8,192-GPU, 1.6배 수치는 NVIDIA의 MLPerf 6.0 보고서에서 가져왔으며, 4,096-GPU 분할은 예시입니다.)

더 자세히 알아보기: GPU & CUDA → Memory Hierarchy (메모리 계층 구조) → NVLink & PCIe

분산 학습(Distributed Training)에서 강력한 확장성(Strong Scaling)이란 무엇인가?

강력한 확장성(Strong scaling)은 문제(하나의 모델, 하나의 품질 목표)를 고정해 두고, GPU를 추가함에 따라 학습 속도가 얼마나 빨라지는지를 측정합니다. 완벽한 강력한 확장성이란 N배의 GPU를 사용했을 때 학습 시간이 1/N로 단축되는 것을 의미합니다. 하지만 실제로는 속도 향상(Speedup)이 그 선에 미치지 못하는데, 이는 매 학습 단계(Training step)마다 GPU가 다음 단계로 넘어가기 전 부분적인 결과들을 멈추고 동기화(Synchronize)해야 하며, 이러한 조정 비용(Coordination cost)이 GPU의 수에 따라 증가하기 때문입니다. 이상적인 속도 향상과 실제 속도 향상 사이의 격차를 확장 효율성(Scaling efficiency)이라고 합니다.

왜 GPU를 두 배로 늘려도 학습 시간이 절반으로 줄어들지 않는가?

학습이 동기적(Synchronous)이기 때문입니다. 각 GPU는 배치의 서로 다른 슬라이스(Slice)를 처리하지만, 매 단계가 끝날 때마다 다음 단계로 넘어가기 전 그래디언트(Gradients)를 평균화(AllReduce)해야 하며, 텐서 병렬(Tensor-parallel) 및 전문가 병렬(Expert-parallel) 그룹 간에 활성화 값(Activations)과 가중치(Weights)를 교환해야 합니다. 이러한 장벽(Barrier)은 GPU당 작업량이 줄어드는 속도만큼 빠르게 줄어들지 않는 오버헤드(Overhead)이므로, GPU를 추가하더라도 비례적인 속도 향상을 얻기 어렵습니다. 해결책은 동기화 비용을 저렴하게 만드는 것입니다. 즉, 빠른 랙 규모(Rack-scale)의 NVLink 패브릭과 낮은 정밀도(FP8/NVFP4)의 수치를 사용하여 속도 향상 곡선이 선형(Linear)에 가깝게 유지되도록 하는 것입니다.

NVIDIA Blackwell은 MLPerf Training 6.0에서 실제로 무엇을 달성했는가?

NVIDIA는 7개의 모든 MLPerf Training 6.0 벤치마크에서 가장 빠른 기록을 달성했다고 보고했습니다. 새로운 GB300 NVL72 랙은 이전의 GB200 NVL72보다 최대 1.6배 빠르게 학습했습니다. 제출된 결과물들은 8,192개의 GPU까지 확장되었으며(CoreWeave는 DeepSeek-V3 671B를 목표치까지 2.02분 만에 학습시켰고, Microsoft Azure는 8,192-GPU 규모에서 Llama 3.1 405B의 목표를 7.07분 만에 달성했습니다), 이번 라운드에는 새로운 전문가 혼합(Mixture-of-experts, MoE) 사전 학습(Pretraining) 워크로드가 추가되었습니다. 핵심은 단일 칩의 성능보다는 수천 개의 칩이 얼마나 잘 함께 확장(Scale)되는지에 있습니다.

원문은 Learn AI Visually에 게시되었습니다.