중국의 LineShine 슈퍼컴퓨터, 미국의 El Capitan을 제치고 Top 500 리스트 1위 등극 — CPU만을 사용하여 2

요약

중국의 LineShine 슈퍼컴퓨터가 미국의 El Capitan을 제치고 세계 1위로 등극했습니다. LineShine은 CPU만을 사용하여 2 ExaFLOPS 이상의 배정밀도 성능을 달성한 최초의 장비로, Armv9 아키텍처 기반의 LX2 프로세서를 사용합니다.

핵심 포인트

LineShine, Top 500 리스트에서 세계 1위 등극
CPU 전용 시스템 최초로 2 ExaFLOPS 이상의 FP64 성능 달성
Armv9 기반 LX2 프로세서 및 독자적 LingQi 인터커넥트 사용
혼합 정밀도 성능은 가속기 통합 시스템 대비 제한적임

중국의 LineShine 슈퍼컴퓨터가 세계 1위 슈퍼컴퓨터 자리를 El Capitan으로부터 빼앗았습니다. 심천 국립 슈퍼컴퓨팅 센터(NSCS)가 결과를 제출한 후, LineShine은 차트의 최상단으로 직행했습니다.

LineShine은 Linpack 벤치마크에서 2.198 FP64 ExaFLOPS를 기록했으며, Top 500 리스트에서 오직 CPU만을 사용하여 2 ExaFLOPS 이상의 배정밀도 (double-precision) 성능을 유지한 업계 최초의 장비가 되었습니다. 이 시스템은 심천 국립 슈퍼컴퓨팅 센터에 배치되었으며, Armv9 명령어 집합 아키텍처 (instruction set architecture)를 기반으로 하고 1.55 GHz로 작동하는 세미 커스텀 304코어 LX2 프로세서를 사용하여 심천 클라우드 컴퓨팅 센터(Shenzhen Cloud Computing Center)에 의해 구축되었습니다. 이 장비는 총 1,379만 개의 코어를 채택하고 있으며, 독자적인 LingQi 인터커넥트 (interconnect)를 사용하고 42.2 MW의 전력을 소비합니다.

와트당 성능 (performance-per-watt) 관점에서 LineShine 장비는 52.07 GFLOPS/W를 제공하며, 이는 El Capitan의 60.94 GFLOPS/W보다 낮습니다. 하지만 LineShine은 몇 년 전까지 No.1 HPC 시스템이었던 또 다른 CPU 전용 슈퍼컴퓨터인 Fugaku를 압도적으로 능가합니다. Fugaku는 효율성 최적화 여부에 따라 14.78 – 16.84 GFLOPS/W만을 제공할 수 있습니다.

LineShine은 또한 22.00 HPCG-PFLOPS를 기록하며 HPCG 순위에서도 최상단으로 올라섰습니다. 그러나 이 슈퍼컴퓨터는 HPL-MxP에서 7.92 mixed-precision EFLOPS를 달성했는데, 이는 El Capitan, Frontier, Aurora에 뒤처지는 수치입니다. 이로 인해 AI 학습 (training) 및 추론 (inference)에 대한 LineShine의 활용도는 제한적이지만, 전통적인 슈퍼컴퓨터 작업에 대한 탁월한 성능을 고려하면 이는 정당화될 수 있습니다.

각 LX2 CPU는 두 개의 컴퓨팅 칩렛 (chiplets)에 의존하며, 각각 38개의 코어를 포함하는 8개의 CPU 클러스터로 구성된 총 304개의 CPU 코어를 보유하고 있습니다. 모든 코어에는 Arm SVE (Scalable Vector Extension) 및 SME (Scalable Matrix Extension) 유닛이 포함되어 있어, FP64, FP32, BF16, FP16 및 INT8 데이터 형식을 지원하며 AI 학습 및 과학 계산에 사용되는 벡터 및 행렬 연산을 가속화합니다. 이 칩은 대역폭과 용량을 모두 극대화하기 위해 최대 256 GB의 외부 DDR5 메모리와 함께 최대 4 TB/s의 대역폭을 제공하는 32 GB의 온패키지 HBM (on-package HBM)을 결합한 다소 이례적인 메모리 아키텍처를 특징으로 합니다.

그럼에도 불구하고, 이 프로세서는 FP64에서 혼합 정밀도 (mixed-precision) 데이터로 전환할 때 성능 향상이 3.6배에 그치는데, 이는 AMD의 Instinct MI300A 또는 Intel의 Ponte Vecchio와 같이 저정밀도 가속기를 통합한 시스템과 비교하면 낮은 수치입니다. SVE/SME를 갖춘 Armv9 CPU가 FP16/BF16/INT8 워크로드를 가속화할 수는 있지만, 메모리 대역폭, 소프트웨어 성숙도, 상호 연결 (interconnect) 효율성 등 여러 이유로 인해 가속기가 있는 시스템에 비해 혼합 정밀도 성능 향상은 여전히 제한적입니다. 그렇기는 하지만, LX2와 혼합 정밀도 워크로드에 대한 활용성에 대해 최종적인 결론을 내리기에는 아직 이른 시점일 수 있습니다.

어떠한 경우든, 중국의 슈퍼컴퓨터가 이례적인 FP64 성능을 달성했다는 사실 자체는 놀라운 일입니다. 나아가, NSCS가 실제로 Top 500에 결과를 제출했다는 사실은 LineShine 슈퍼컴퓨터가 전적으로 국산 기술에 의존하고 있으며, 미국 정부가 이러한 기술의 생산에 영향을 미칠 수 없다는 점을 해당 조직이 확신하고 있음을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

중국의 LineShine 슈퍼컴퓨터, 미국의 El Capitan을 제치고 Top 500 리스트 1위 등극 — CPU만을 사용하여 2

요약

핵심 포인트

댓글