중국, GPU 없는 CPU 전용 슈퍼컴퓨터로 TOP500 1위 등극하며 미국의 El Capitan 시대 종결 — 2.198 exaflops - Insights | Molayo

중국의 LineShine 슈퍼컴퓨터가 제67회 TOP500 리스트에서 1위를 차지하며, High Performance Linpack 벤치마크에서 2.198 exaflops를 기록하며 AMD 기반의 El Capitan을 20% 이상의 격차로 2위로 밀어냈습니다. 선전 국가 슈퍼컴퓨팅 센터(NSCS)에 설치되고 선전 클라우드 컴퓨팅 센터(Shenzhen Cloud Computing Center)가 구축한 이 시스템은 GPU나 어떠한 종류의 가속기(accelerator)도 사용하지 않았으며, 자체 설계된 실리콘 기반의 13,789,440개 코어를 통해 이 수치에 도달했습니다. 이는 리스트에 오른 기기 중 CPU만으로 2 exaflops의 배정밀도(double-precision) 성능을 돌파한 최초의 기기입니다. 또한 2017년 Sunway TaihuLight 이후 TOP500에서 1위를 차지한 최초의 중국 기반 시스템이기도 합니다.

제재를 받는 국가가 서구권의 가속기 하나 없이 엑사스케일(exascale) 플래그십을 구축했다는 사실도 놀랍지만, 더 의미 있는 점은 중국이 이를 리스트에 올리기로 결정했다는 것입니다. 수년 동안 중국의 가장 빠른 기기들은 순위에서 완전히 제외되어 왔으며, 이제 정상급 기기를 제출하기로 한 결정은 의도적인 태도 변화를 의미합니다.

코어부터 OS까지 자체 스택 구축

LineShine은 NSCS가 LingKun 플랫폼이라고 부르는 기술을 기반으로 구축되었습니다. 20,480개의 컴퓨팅 노드 각각에는 1.55 GHz로 작동하는 304개 코어를 가진 Armv9 기반의 LX2 프로세서 2개가 탑재되어 있으며, 이는 38개 코어로 구성된 8개의 클러스터로 조직되어 있습니다. 모든 코어에는 FP64, FP32, BF16, FP16 및 INT8을 지원하는 Arm의 Scalable Vector Extension(SVE) 및 Scalable Matrix Extension(SME) 유닛이 포함되어 있습니다.

이러한 LX2 각각은 최대 4 TB/s로 정격화된 32 GB의 온패키지 HBM (High Bandwidth Memory)과 최대 256 GB의 오프패키지 DDR5를 결합하고 있으며, 이러한 구성은 일반적인 서버 CPU보다는 일본 Fugaku의 Fujitsu A64FX에 더 가깝습니다. 노드들은 독자적인 LingQi 인터커넥트 (interconnect)로 연결되어 있으며, 이 머신은 자체 개발한 Kylin OS를 실행합니다.

LX2를 누가 설계했는지는 알려지지 않았습니다 — NSCS는 어떤 벤더도 명시하지 않았습니다 — 하지만 Jon Peddie Research는 이 칩을 Huawei의 설계로 추정했으며, 프로젝트의 파일럿 단계는 Huawei Kunpeng 서버에서 실행된 것으로 보고되었습니다. 제조 공정 노드와 파운드리 (foundry) 역시 확인되지 않았습니다. EUV 장비와 TSMC의 생산 능력을 모두 사용할 수 없다는 점을 고려할 때, SMIC의 7nm급 공정이 소거법에 따른 명백한 국내 후보이지만, 현재까지 이 부품에 대해 문서화된 기록은 없습니다.

AI의 왕좌는 아니다

LineShine은 또한 실제 과학 코드에 더 가까운 메모리 및 통신 제한적 워크로드 (memory- and communication-bound workloads)에 보상을 주는 테스트인 HPCG에서 22.00 petaflops를 기록하며 1위를 차지했습니다. 하지만 AI 학습 수학을 근사화하는 혼합 정밀도 벤치마크 (mixed-precision benchmark)인 HPL-MxP에서는 7.92 exaflops로 4위에 그쳤으며, 이는 FP64 점수 대비 3.6배 향상된 수치입니다.

다시 말해, LineShine이 Linpack에서 앞질렀던 가속기 기반 머신들은 정밀도가 낮아지는 순간 훨씬 더 앞서 나갑니다. TOP500 발표에 따르면, El Capitan은 HPL-MxP에서 16.7 exaflops를 기록하며 표준 결과 대비 9.2배의 도약을 보여주었으며, Aurora와 Frontier 역시 유사한 배수를 보여주었습니다. 저정밀도 처리량 (Reduced-precision throughput)은 바로 GPU와 APU가 CPU와 격차를 벌리는 지점이며, LineShine은 이 격차를 숨길 곳이 없습니다.

전력 측면에서도 유사한 문제들이 나타나는 것을 볼 수 있습니다. LineShine은 42,220 kW를 소모하며, Linpack 실행 시 와트당 52.07 gigaflops를 기록했습니다. 이는 Intel의 Aurora를 여유롭게 앞서지만, El Capitan의 60.94 gigaflops per watt에는 뒤처집니다. 따라서 LineShine은 Livermore 시스템보다 더 많은 총 FP64 출력을 생성하지만, 이를 위해 약 42% 더 많은 전력을 소모합니다.

이러한 차이점을 유념할 가치가 있는데, 그 이유는 TOP500 순위가 FP64 Linpack을 기준으로 결정되기 때문입니다. 이는 광대역 HBM(High Bandwidth Memory)을 갖춘 CPU가 여전히 가속기(accelerators)와 대등하게 겨룰 수 있는 유일한 영역입니다. LineShine은 진정한 배정밀도(double-precision) 챔피언이지만, 세계를 선도하는 AI 학습용 머신은 아니며, 이 시스템의 4위 기록인 HPL-MxP 결과가 이를 증명합니다.

그렇다면, 중국은 왜 이를 제출했을까요?

중국은 Sunway의 Wuxi 센터와 Sugon이 엔티티 리스트(entity-list)에 추가되는 일련의 사건들이 발생한 이후, 2021년경부터 가장 빠른 시스템들을 TOP500에 제출하는 것을 중단했습니다. 커뮤니티는 중국이 이번 진입 훨씬 전부터 엑사스케일(exascale) 하드웨어를 운용해 왔다고 오랫동안 믿어왔습니다. Sunway의 후속작인 OceanLight와 NUDT가 구축한 Tianhe-3 모두 TOP500 리스트에 등장하지 않은 채 Gordon Bell Prize 과학 논문을 통해 모습을 드러냈습니다. TOP500의 공동 창립자인 Jack Dongarra는 수년 동안 중국 연구자들이 자신에게 제출이 허용되지 않는다고 말했다며, 이러한 누락은 역량의 부족 때문이 아니라 미국의 관심을 피하기 위한 것이라고 언급해 왔습니다.

AMD가 선두를 차지하고 중국 HPC는 부재한 상태로 남았던 지난 6월의 목록은 특히 눈에 띄었으나, 이제 LineShine을 전면에 내세움으로써 그 상황을 뒤집었습니다. 이 시스템은 공공 자금 지원 없이 개발된 것으로 보고되었는데, 이는 공개에 따른 정치적 노출을 낮춰줍니다. 또한, 완전한 국산 설계(all-domestic design)를 의미하므로 워싱턴이 사후에 차단할 수 있는 서구권 부품에 대한 의존성이 없음을 뜻합니다.

HPC 분석 기업인 Intersect360 Research의 최고 경영자(CEO) Addison Snell은 Reuters와의 인터뷰에서 성능 자체에는 놀라지 않았지만, 공개 사실 자체에는 놀랐다고 말했습니다. 그는 중국이 결과를 제출하고 그에 대한 인정을 원했다는 점이 놀랍다고 언급했습니다. 궁극적으로, 전적으로 자국산 부품으로 구동되는 1위 시스템을 제출한 것은 제재 체제가 중국이 중요하게 여기는 격차를 좁히지 못했다는 선언입니다.

AMD는 여전히 지배적이다

목록의 최상단은 주인이 바뀌었을지 모르지만, 나머지 대부분은 그렇지 않습니다. 미국은 El Capitan (1.809 exaflops), Frontier (1.353 exaflops), Aurora (1.012 exaflops)로 상위 5개 중 3개를 차지하며 여전히 지배적인 위치를 점하고 있으며, 독일의 JUPITER Booster는 정확히 1.000 exaflops를 기록하며 유럽의 첫 번째이자 유일한 엑사스케일 (exascale) 시스템으로 남아 있습니다.

AMD의 실리콘은 가속 컴퓨팅 분야의 대부분을 뒷받침하고 있습니다. 자사 블로그에 따르면, AMD는 현재 리스트에 있는 191개의 시스템에 전력을 공급하고 있으며, 이는 전년 대비 11% 증가한 수치이자 이번 에디션 신규 진입 항목의 41%를 차지합니다. AMD는 El Capitan, Frontier, 그리고 이탈리아 에너지 기업 Eni에 새로 배치된 HPC7까지 상위 10위권 내에 세 개의 슬롯을 확보하고 있으며, 상위 10위권 Linpack 성능 합계의 40% 이상을 기여하고 있습니다. 효율성 측면에서는 상위 50위 Green500 시스템의 56%에 전력을 공급하고 있으며, 영국의 두 Cambridge Zenith 시스템을 포함한 첫 번째 Instinct MI355X 배치는 67위와 68위로 진입했습니다.

이 중 그 어떤 것도 LineShine에 의해 타격을 입지 않는데, 이는 두 시스템이 동일한 워크로드(workload)를 두고 경쟁하지 않기 때문입니다. AMD의 MI300A 및 MI355X 부품은 혼합 정밀도 (mixed-precision) AI 산술을 위해 구축되었으며, LineShine은 이 분야에서 4위를 기록하고 있습니다. 나머지 서구권 연구소들은 FP64 리더보드 순위가 아닌 이 분야를 최적화하고 있습니다.

El Capitan, Frontier, Aurora는 모두 LineShine이 보유하지 않은 하드웨어를 통해 Linpack 결과보다 몇 배나 높은 HPL-MxP 점수를 기록하고 있습니다. 따라서 TOP500의 왕좌가 Shenzhen으로 이동한 것은 사실이지만, 이는 서구권 연구소들이 자신들의 가장 빠른 기기들로 더 이상 쫓지 않는 벤치마크를 통해 이루어진 것입니다.

중국, GPU 없는 CPU 전용 슈퍼컴퓨터로 TOP500 1위 등극하며 미국의 El Capitan 시대 종결 — 2.198 exaflops

요약

핵심 포인트

코어부터 OS까지 자체 스택 구축

AI의 왕좌는 아니다

그렇다면, 중국은 왜 이를 제출했을까요?

AMD는 여전히 지배적이다

댓글