Intel Omni-Path, DoE 슈퍼컴퓨터를 위한 InfiniBand 경쟁자로 재부상
요약
Cornelis Networks가 부활시킨 Intel의 Omni-Path 인터커넥트가 Nvidia InfiniBand의 대안으로 미국 에너지부(DoE) 슈퍼컴퓨터에 도입될 예정입니다. 400Gbps 속도와 초저지연 성능을 바탕으로 대규모 분산 학습 환경의 네트워킹 다변화를 이끌 것으로 기대됩니다.
핵심 포인트
- Cornelis CN5000 스위치는 400Gbps 속도와 100ns 미만의 초저지연 지원
- Nvidia InfiniBand 독점에 대응하여 DoE의 네트워킹 스택 다변화 추진
- Direct Memory Access 모델을 통해 높은 대역폭 활용률 달성
- AI 대규모 분산 학습을 위한 새로운 인터커넥트 대안 제공
Cornelis Networks에 의해 부활한 Intel의 Omni-Path 인터커넥트(interconnect)가 InfiniBand의 대안으로서 400Gbps 속도로 DoE 슈퍼컴퓨터를 연결할 예정입니다.
The Register의 보도에 따르면, Cornelis Networks가 부활시킨 Intel의 Omni-Path 인터커넥트가 Nvidia의 InfiniBand에 대한 400Gbps 대안으로서 미국 에너지부(DoE)의 슈퍼컴퓨터를 연결할 것이라고 합니다. 원래 Intel에서 자체 개발했던 이 기술은 시장 점유율 하락으로 인해 Intel이 2019년에 포기한 이후 다시 모습을 드러냈습니다.
주요 사실
- Cornelis CN5000 스위치: 400Gbps 속도의 200개 포트
- 홉(hop)당 100나노초(nanoseconds) 미만의 지연 시간(Latency)
- Intel은 2019년에 Omni-Path 중단
- DoE 배포는 2027-2028 엑사스케일(exascale) 시스템을 대상으로 함
- Cornelis는 스핀오프(spinoff) 이후 4,500만 달러 규모의 시리즈 B 투자 유치
원래 HPC 클러스터를 위해 개발된 Intel의 Omni-Path 인터커넥트 기술은 Cornelis Networks에 의해 미국 에너지부(DoE) 슈퍼컴퓨터를 위한 400Gbps 패브릭(fabric)으로 부활하고 있다고 The Register가 보도했습니다. 회사의 사양에 따르면, Cornelis CN5000 스위치는 최대 200개의 400Gbps Omni-Path 포트를 지원하며, 지연 시간(latency)은 100나노초 미만입니다. 이번 배포는 Intel이 InfiniBand와의 시장 점유율 경쟁에서 실패한 후 2019년에 자체 Omni-Path 제품을 중단한 이래 Omni-Path가 거둔 첫 번째 주요 승리로 기록됩니다. 참고로 InfiniBand는 2020년 Mellanox를 인수한 Nvidia가 소유하고 있습니다.
Cornelis에 따르면, Omni-Path는 TCP/IP 스택 오버헤드 (overhead)를 피하는 직접 메모리 접근 (direct-memory-access) 모델을 사용하여 벤치마크 테스트에서 1마이크로초 미만의 지연 시간 (latency)과 90% 이상의 대역폭 활용률 (bandwidth utilization)을 달성합니다. 이 기술은 Nvidia의 InfiniBand NDR 400 (400Gbps) 및 AMD, Intel 등이 지원하는 신흥 Ultra Ethernet Consortium과 직접 경쟁합니다. DoE가 Omni-Path를 선택한 것은 대부분의 Top500 슈퍼컴퓨터를 구동하는 Nvidia의 지배적인 네트워킹 스택 (networking stack)으로부터 벗어나 다변화하려는 의지를 나타냅니다.
이것이 AI 학습에 중요한 이유
AI 엔지니어들에게 Omni-Path의 부활은 InfiniBand의 RDMA (Remote Direct Memory Access)가 사실상의 표준 (de facto standard)이었던 대규모 분산 학습 (distributed training)을 위한 대안적 인터커넥트 (interconnect)를 제공합니다. Cornelis CN5000의 포트당 400Gbps 대역폭은 InfiniBand NDR-400과 일치하지만, Omni-Path는 모델 병렬 학습 (model-parallel training)의 올-리듀스 (all-reduce) 연산에 필수적인 더 낮은 테일 지연 시간 (tail latency)을 주장합니다. 그러나 채택 여부는 소프트웨어 생태계의 성숙도에 달려 있습니다. InfiniBand는 Nvidia의 CUDA-Aware MPI 및 NCCL 최적화의 이점을 누리는 반면, Omni-Path는 커스텀 드라이버 (custom drivers)와 MPI 라이브러리 (MPI libraries)를 필요로 합니다.
Cornelis Networks는 DoE의 가격 책정이나 물량 약정 내용을 공개하지 않았습니다. Crunchbase에 따르면, 2021년 Intel에서 분사된 이 회사는 시리즈 B (Series B) 펀딩에서 4,500만 달러를 유치했습니다. DoE의 배포 일정은 명시되지 않았으나, The Register는 이 계약이 2027-2028년으로 계획된 여러 엑사스케일급 (exascale-class) 시스템을 포함한다고 언급했습니다.
주목해야 할 점
Cornelis Networks의 다음 펀딩 라운드나 IPO 신청을 주목하십시오. 이는 DoE를 넘어선 상업적 견인력을 나타내는 신호가 될 것입니다. 또한 Ultra Ethernet Consortium의 채택 추이도 추적해야 합니다. 만약 이 컨소시엄이 탄력을 받는다면, Omni-Path는 2028년까지 HPC 인터커넥트 시장에서 세 번째 경쟁자에 직면할 수 있습니다.
출처: news.google.com
원래 게재일: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기