
세 명의 HPC 전문가가 묻다: 과연 GPU는 여전히 필요한가?
요약
HPC 전문가들이 GPU 없이 CPU만으로 AI 학습과 과학적 계산이 가능한지 논의하는 최신 연구를 소개합니다. Fugaku와 LineShine 같은 올-CPU 슈퍼컴퓨터 사례를 통해 CPU 아키텍처의 진화와 GPU의 필요성을 재고합니다.
핵심 포인트
- HPC 전문가들이 GPU의 필요성에 대해 의문을 제기하는 논문 발표 예정
- CPU가 벡터/행렬 엔진 및 고대역폭 메모리를 갖추며 GPU와 유사해짐
- Fugaku와 LineShine 등 올-CPU 기반 슈퍼컴퓨터 사례 분석
- AI 및 과학적 계산을 위한 CPU 중심 아키텍처의 가능성 탐색

세 명의 HPC 전문가가 묻다: 과연 GPU는 여전히 필요한가?
네, 이 간단한 질문은 AI 학습과 어느 정도 수준의 HPC 시뮬레이션 및 모델링을 지배하게 된 현대 Nvidia 세계에서는 이단적인 질문입니다. 하지만 CPU가 하이브리드 벡터 및 행렬 수학 엔진, 혼합 정밀도 지원, 경우에 따라 HBM 스택 및 고대역폭 메모리뿐만 아니라 더 큰 DRAM 메인 메모리, 그리고 통합 인터커넥트 등을 갖추면서 많은 경우 GPU처럼 보이기 시작한다는 점을 고려하면, 이것 역시 논리적인 질문입니다.
그래서 테네시 대학교와 오크리지 국립 연구소에서 36년간 활동한 Jack Dongarra, ETC Zurich의 Torsten Hoefler(CSCS의 AI/ML 최고 아키텍트), 그리고 RIKEN 연구소 및 도쿄 공과대학 소속 Satoshi Matsuoka가 이 질문을 수사적으로 던지고 답하자 사람들은 귀 기울입니다.
이 질문은 곧 arXiv와 컴퓨터 기계 학회(Association for Computing Machinery)의 주요 간행물인 Do We Still Need GPUs? Rethinking AI and Scientific Computing on Matrix-Enhanced CPUs에 실릴 예정인 논문에서 답변될 것이며, 이 링크를 통해 발표되기 전까지 직접 읽어볼 수 있습니다. 그리고 이 질문은 이번 달에 발표된 최신 Top500 순위에서 세계에서 가장 빠른 AI/HPC 슈퍼컴퓨터인 'LineShine'이라는 새로운 올-CPU 슈퍼컴퓨터의 존재로 인해 촉발되었습니다. 저는 LineShine 머신의 프로세서, 메모리, 인터커넥트와 그 중국산 LX2 Arm 서버 CPU에 대해 깊이 파고들었으며, 세 HPC 전문가가 발표할 이 논문을 얻기 위해 이것을 읽어야 합니다.
여기 제가 열정적으로 살을 붙여 설명할 논문이 있습니다. 이 논문은 2021년 3월 본격적인 가동을 시작한 RIKEN 연구소의 "Fugaku" 슈퍼컴퓨터의 A64FX 프로세서 및 아키텍처와, 지난 가을 가동된 것으로 보이는 LineShine 머신을 비교 및 대조합니다. 두 AI/HPC 슈퍼컴퓨터 모두 올-CPU (all-CPU) 설계이며, 이는 2012년 9월 본격적인 생산에 들어갔던 RIKEN의 Fugaku 전신인 "Project Keisoku" K 슈퍼컴퓨터와도 같습니다. 참고를 위해, 저는 예전 The Register에서 K 시스템에 대해 심층 분석(deep dive)을 진행한 바 있습니다. Fujitsu는 Fugaku 머신과 함께 Sparc에서 Arm 아키텍처로 전환했으며, A64FX 프로세서에 대한 심층 분석은 여기에, Tofu D 컴패니언 인터커넥트 (interconnect)에 대한 내용은 저기에 있습니다.
K 머신과 관련하여 재미있는 부분은 다음과 같습니다. 그것은 선택에 의한 올-CPU 머신이 아니었습니다.
지난 2008년 당시의 구상은 일본의 3대 슈퍼컴퓨터 및 시스템 제조사가 협력하여, Fujitsu가 만든 CPU 연산 장치와 Hitachi의 벡터 가속기 (vector accelerators)를 결합한 하이브리드 머신을 만드는 것이었습니다. 여기에 NEC는 모든 CPU 및 벡터 노드를 서로 연결하여 작업을 공유할 수 있도록 다차원 메시/토러스 (mesh/torus) 인터커넥트를 개발하는 역할을 맡았습니다. 하지만 대침체 (Great Recession)가 몰아치던 2009년 5월, K 시스템의 개발 및 제조 비용을 감당할 수 있을지 불확실해진 Hitachi와 NEC가 모두 계약에서 빠지게 되었습니다. 결국 Fujitsu가 거대한 벡터 엔진을 탑재한 매우 우수한 "Venus" Sparc64-VIIIfx 프로세서를 직접 만들게 되었습니다. NEC의 초기 개발을 거쳐 Fujitsu가 완성한 Tofu 인터커넥트 역시 매우 뛰어났으며, 그 결과 탄생한 K 머신은 세계에서 가장 빠른 슈퍼컴퓨터였을 뿐만 아니라, 다양한 워크로드(workloads)에 걸쳐 가장 효율적인 머신이기도 했습니다. 사실, 3세대 Tofu D 6D 메시 토러스 (mesh torus) 인터커넥트를 갖춘 Fugaku조차도 K의 연산 효율성을 능가할 수는 없습니다. (점점 더 커지는 머신에서 모든 FLOPS를 짜내는 것은 어려운 일입니다.)
왜 비교 대상으로 Fugaku와 LineShine을 콕 집어 언급했을까요? 그 이유는 두 시스템 모두 수조 개의 파라미터를 가진 생성형 AI (GenAI) 모델을 지원하는 데 사용되어 왔으며, 전통적인 모의실험 (ModSim) 코드뿐만 아니라 실질적인 성과를 내기 위해 AI와 HPC 워크로드를 혼합하여 지원하고 있기 때문입니다.
논문의 저자들은 GPU가 처음 등장하게 된 이유를 정확히 지적하고 있습니다. 당시 CPU는 다중 정밀도 (multiple precision)에서 충분한 FLOPS를 제공하지 못했고, 설계에 많은 수학 연산 기능이 내장되어 있었음에도 불구하고 메모리 서브시스템이 충분한 대역폭 (bandwidth)을 공급하지 못했기 때문입니다. 많은 양의 벡터 수학 (vector math)과 그보다 더 강력한 텐서 수학 (tensor math), 그리고 빠른 GDDR과 더불어, 용량은 적지만 솔버 (solver)가 병렬화되었을 때 유용한 작업을 수행하기에 충분한 HBM 적층 메모리의 결합이 GPU를 필수적인 존재로 만들었습니다. CPU 제조사들은 한 가지 대신 두 가지를 판매할 수 있게 되어 기뻐했고, 결국 Nvidia 또한 GPU뿐만 아니라 CPU를 판매하게 되어 만족했습니다.
하지만 모든 조건이 동일하다면, HPC 시설들은 단순히 스케일 아웃 (scale out) 네트워크를 고수하면서 수학 연산 능력이 터보차저급으로 강화된 CPU를 사용하는 것을 선호했을 것입니다.
점진적으로, 아주 느리게나마 이러한 변화가 일어나고 있습니다. 논문의 저자들은 2016년 Fujitsu A64FX 프로세서와 함께 데뷔한 Arm의 Neoverse Armv8.2-A 아키텍처에 추가된 SVE 벡터 확장 (vector extensions) 기능과, 2019년 Armv9-A 아키텍처와 함께 추가된 개선된 SVE2 벡터 유닛을 언급합니다. Arm SME 매트릭스 유닛 또한 Armv9-A 아키텍처와 함께 추가되었으며, 개선된 SME2 매트릭스 엔진은 2022년 Arm9.4-A 아키텍처에 추가되었습니다. 저자들은 또한 Intel이 2020년 Xeon 서버 사양에 AMX 매트릭스 유닛을 추가했다는 점을 인정하며, Argonne 국립 연구소의 "Aurora" 슈퍼컴퓨터에서 특히 사용된 "Sapphire Rapids" CPU가 AMX를 구현한 최초의 Xeon이었다는 점을 명시합니다. AVX-512 벡터 유닛은 이미 2016년 "Knights Landing" Xeon Phi 가속기와 함께 데뷔했으며, 결과적으로 일반 Xeon 프로세서로 도입되었습니다.
우리는 IBM Power10 및 Power11 서버 칩뿐만 아니라 z16 및 z17 메인프레임 프로세서 모두에 매트릭스 엔진 (matrix engines)이 탑재되어 있으며, Arm이나 Xeon CPU보다 훨씬 이전에 이미 양산 단계에 도달했음을 지적하고자 합니다. IBM의 두 프로세서 제품군은 또한 소수점 둘째 자리까지 지원하는 네이티브 십진수 (native decimals)를 지원하는 유일한 제품군이기도 합니다. 이는 제가 반올림 문제(rounding issues)를 방지해야 하는 상황을 일컬어 "머니 매스 (money math)"라고 부르는 방식입니다. AMD는 분명히 Epyc 프로세서 코어에 추가하거나 Epyc 칩 패키지 내에 추가할 수 있는 매트릭스 연산 유닛 (matrix math units)을 보유하고 있지만, 아직까지는 그렇게 하지 않았습니다. 2021년 9월에 출시된 Power10과 2025년 7월에 출시된 Power11은 각 코어에 벡터 및 매트릭스 유닛을 추가했지만, "Telum" 및 "Telum-II" 메인프레임 칩은 코어 외부의 다이 (die) 위에 이를 배치했습니다. IBM에게 있어 생성형 AI (GenAI) 추론 (inference)은 선호하는 HPC 워크로드이며, IBM의 시스템은 GPU가 필요하지 않도록 그렇게 설계되었습니다. (IBM은 미국과 유럽의 대형 국립 연구소들을 위한 HPC 시스템의 주요 계약자로서 손실을 보는 것에 지쳤습니다.)
Arm과 Xeon 설계 또한 모든 코어에 매트릭스 유닛을 배치합니다.
서버 노드의 보안 경계(security perimeter)를 벗어나지 않고 이를 해결하는 세 가지 방법이 있으며, IBM이 수행하는 또 다른 한 가지 방법은 서버 외피 아래의 PCI-Express 카드에 훨씬 더 큰 매트릭스 연산 유닛을 배치하는 것입니다. 이것이 바로 IBM Research에서 탄생한 Big Blue의 Spyre 가속기입니다. 결국, 아마도 Power12와 함께 IBM은 세 가지 컴퓨팅 엔진 모두에 정확히 동일한 매트릭스 유닛을 탑재하게 될 것입니다. 현재로서는 Power10 및 Power11에서 사용되는 MMA는 z16, z17 및 Spyre에서 사용되는 매트릭스 유닛과는 매우 다릅니다.
애초에 왜 우리는 GPU로 갔는가?
2000년대 후반 GPU가 HPC 분야에 처음 등장했을 당시에는, 통계적 AI가 대두되기 훨씬 전이었고 데이터 규모와 유형이 커짐에 따라 창발적 행동 (emergent behavior)을 가진 거대한 신경망을 구축하기 위한 연산 규모가 필요해지며 GenAI가 등장하기 훨씬 전이었습니다. 당시에는 CPU 전용 시스템에 비해 약 3배의 성능을 얻기 위해 GPU 가속 머신에 3배 더 많은 비용을 지불해야 했습니다. 초기에는 가격 대비 성능 (price/performance) 측면에서 그리 설득력이 높지 않았습니다. 얻을 수 있었던 주요 이점은 더 높은 메모리 대역폭 (memory bandwidth)이었으며, 이는 응답 시간의 개선과 FP64 및 FP32 연산에 대한 에너지 비용 절감을 의미했습니다. 결국 HPC 소프트웨어 스택이 성숙해짐에 따라 CPU 대비 성능 차이가 커졌고, GPU 시스템의 가격 대비 성능 또한 개선되었습니다. Top500 순위에서 확인할 수 있는 격차가 바로 이 지점입니다.
하지만 그 격차에는 꽤 가파른 대가가 따릅니다. 수치 연산 집약적인 병렬 루틴은 GPU로 오프로드 (offload)하고, 직렬 작업은 CPU에 남겨두도록 코드를 분리해야 합니다. GPU는 별개의 장치이며, 이 장치들 사이에서 데이터를 주고받아야 합니다. 후자(데이터 이동)는 에너지를 소모하고, 전자(GPU 사용)는 비용을 소모합니다. 아마도 GenAI 코딩 어시스턴트가 있다면, 이러한 하이브리드 컴퓨팅 모델을 더 쉽게 구현할 수 있을지도 모릅니다.
이러한 GPU 오프로드는 모두를 위한 것이 아니며, 이것이 Top500 머신의 약 절반만이 어떤 방식으로든 가속화되는 경향을 보이는 이유입니다. GPU 가속 머신의 강력한 상업화가 15년 동안 진행되었음에도 불구하고, 나머지 절반은 여전히 CPU 전용 머신입니다. 물론 이들은 전력 효율이 낮고 덜 인상적이지만, Nvidia의 GPU 하드웨어에 대한 CUDA 세금을 지불할 필요가 없으며, 매우 비싼 HBM 메모리를 사용할 필요도 없습니다.
다음은 LineShine 머신과 그 LX2 프로세서가 출시된 이후, Dongarra, Hoefler, 그리고 Matsuoka가 현재 상황을 바라보는 관점입니다.
“그렇다면 가장 강력한 논거는 GPU가 쓸모없다는 것이 아닙니다. 그렇지 않습니다. GPU는 매우 강력하며 앞으로도 중요할 것입니다. 논거의 핵심은 만약 CPU가 GPU를 매력적으로 만들었던 아키텍처적 특징들을 포함하는 방향으로 진화한다면, GPU가 근본적으로 필수적인 것은 아니라는 점입니다. SVE/AVX, SME/AMX, HBM, 다중 정밀도 형식(multiple precision formats), 그리고 행렬 곱셈(matrix-multiply) 능력을 갖춘 CPU는 더 이상 전통적인 CPU가 아닙니다. 그것은 가속기급 수치 연산 장치를 갖춘 범용 프로세서(general-purpose processor)입니다.”
“이러한 변화는 AI와 과학 계산(scientific computing)의 융합에 특히 중요할 수 있습니다. 미래의 과학 애플리케이션은 단순히 시뮬레이션을 실행하거나 신경망을 훈련하는 식으로 따로 작동하지 않을 것입니다. 이들은 시뮬레이션, 데이터 동화(data assimilation), 최적화(optimization), 불확실성 정량화(uncertainty quantification), 그리고 머신러닝(machine learning)을 긴밀하게 결합된 워크플로(workflow) 내에서 통합할 것입니다. 이러한 워크플로는 AI 스타일의 텐서 처리량(tensor throughput)과 전통적인 HPC 역량인 MPI 통신, 배정밀도(double precision), 희소 솔버(sparse solvers), 적응형 알고리즘(adaptive algorithms), 파일 I/O, 그리고 복잡한 제어 로직을 모두 필요로 합니다. 행렬 가속이 통합된 CPU는 호스트 CPU와 별도의 GPU(discrete GPU) 사이를 끊임없이 데이터가 이동해야 하는 시스템보다 이러한 융합을 위한 더 깔끔한 플랫폼이 될 수 있습니다.”
Fugaku와 LineShine에서 수조 개의 파라미터를 가진 추론 모델이 어떻게 작동하는지에 대한 통찰을 얻으려면 논문을 읽어보시기 바랍니다. 또한 LineShine의 커스텀 LX2 Arm 서버 CPU에 행렬 연산 유닛(matrix math unit)을 추가하는 것이 어떻게 결정적인 차이를 만드는지도 확인할 수 있습니다. (LineShine은 중국 NSC Shenzhen에 설치되어 있습니다.)
하지만 제가 여러분이 생각해 보길 바라는 점은 이것입니다. LX2 칩은 아마도 Taiwan Semiconductor Manufacturing Co의 경쟁자가 되고자 하는 중국의 SMIC(Semiconductor Manufacturing International Corp)에서 제조되었을 것이며, 아마도 고급 7나노미터(nanometer) 공정 노드를 사용하여 제작되었을 것입니다. 그리고 칩의 크기를 고려할 때, 이는 650와트(watt)의 열 설계 전력(thermal envelope) 범위 내에 머물기 위해 1.55 GHz로만 동작할 수 있음을 의미합니다.
만약 LX2가 TSMC의 3나노미터 (3nm) 공정으로 제작된다면, 클록 속도 (clock speed)를 더 높일 수 있고, 칩의 크기는 더 작아지며 비용은 낮아질 수 있으며, 칩당 비용 또한 약간 감소할 수 있습니다. 이러한 변화는 실제 LineShine이 가진 2.74 엑사플롭스 (exaflops)의 이론적 최대 성능 (peak theoretical performance)과 동일한 성능을 내기 위해 필요한 프로세서 수(따라서 필요한 코어 수)를 거의 확실하게 절반으로 줄여줄 것입니다. 그리고 이를 수행하기 위해 42.2 메가와트 (megawatts)의 전력을 소모하는 대신, 25 메가와트에 더 가까운 전력으로 수행할 수 있을지도 모릅니다.
High Performance Linpack (HPL) 테스트에서 실제 LineShine은 2.2 엑사플롭스로 평가되며, 계산해 보면 이는 와트당 52.1 기가플롭스 (gigaflops)입니다. 하지만 몇 번의 공정 노드 (process node) 도약을 통해 이를 25 메가와트로 낮출 수 있다면, LX2 CPU가 3나노미터 공정으로 제작될 경우 LineShine은 와트당 약 87 기가플롭스에 도달할 것입니다. 로렌스 리버모어 국립 연구소 (Lawrence Livermore National Laboratory)에 설치된 6월 Top500 리스트의 2위 머신인 "El Capitan"은 "겨우" 와트당 60.9 기가플롭스 수준입니다. 6월 리스트에서 가장 전력 효율적인 머신들은 Nvidia "Grace" Arm 서버 CPU와 "Hopper" H100 및 H200 GPU 가속기 (accelerators)의 조합을 기반으로 하며, HPL에서 와트당 약 70 기가플롭스로 작동합니다.
이 머신들에 대해 와트당 가격 대비 성능 (price/performance per watt) 분석을 할 수 있다면 좋겠지만, 우리는 LineShine의 비용이 얼마인지 알지 못합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 The Next Platform의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기