NVIDIA Spectrum-X MRC: Gigascale AI를 위한 커스텀 RDMA 전송 프로토콜
요약
NVIDIA는 차세대 RDMA 전송 프로토콜인 Multipath Reliable Connection (MRC)을 Open Compute Project를 통해 공개하며, AI 훈련 클러스터의 규모 확장성을 높였습니다. MRC는 단일 연결로 여러 네트워크 경로에 트래픽을 분산시켜 대역폭 향상, 로드 밸런싱, 높은 가용성을 제공합니다. 특히 하드웨어 가속화된 기능들(동적 혼잡 회피, 마이크로초 단위 장애 우회 등)은 수백만 GPU 규모의 AI 팩토리에서 예측 가능한 낮은 지연 시간과 복원력을 보장하며, 이는 오픈 스펙으로 공개되어 산업 전반의 상호 운용성을 높이는 데 기여합니다.
핵심 포인트
- MRC는 단일 RDMA 연결을 통해 여러 네트워크 경로를 활용하여 대규모 AI 훈련 클러스터의 성능(대역폭, 로드 밸런싱)과 가용성을 극대화합니다.
- 하드웨어 가속화된 기능들(동적 혼잡 회피, 마이크로초 단위 장애 우회 등)을 통해 네트워크 중단에 대한 복원력을 제공하여 대규모 AI 운영의 안정성을 보장합니다.
- Spectrum-X는 멀티 플레인 아키텍처를 지원하며, 이는 수백만 GPU 규모에서도 예측 가능한 낮은 지연 시간을 유지하는 핵심 요소입니다.
- MRC 프로토콜을 Open Compute Project를 통해 개방된 사양으로 출시함으로써, NVIDIA는 산업 전반의 상호 운용성을 확보하고 시장 표준화를 주도합니다.
NVIDIA 는 NVIDIA Spectrum-X Ethernet 하드웨어에서 규모 확장성을 입증한 차세대 RDMA 전송 프로토콜인 Multipath Reliable Connection (MRC) 을 Open Compute Project 를 통해 더 넓은 산업에 제공했습니다. 이 움직임은 AI 훈련 클러스터가 더 큰 멀티 랭크 및 기가스케일 배포로 진입함에 따라 Spectrum-X Ethernet 에 대해 더 개방적인 이야기를 제공합니다.
Spectrum-X Ethernet 에서 MRC 가 중요한 이유
MRC 는 단일 RDMA 연결 (RoCEv2) 을 통해 트래픽을 여러 네트워크 경로를 동시에 분산시켜 대규모 AI 훈련 팩토리의 성능을 향상시킵니다. 이는 향상된 대역폭, 더 나은 로드 밸런싱 및 높은 가용성을 제공합니다. MRC 는 가장 빠른 경로와 동적 혼잡 회피를 찾아서 운영자에게 GPU 간 데이터 흐름에 대한 더 많은 통제를 제공합니다.
현대 AI 팩토리의 규모에서 네트워크 중단은 훈련 작업을 늦추거나 중단할 수 있습니다. MRC 는 모든 경로를 통한 하드웨어 가속 로드 밸런싱, 실시간으로 트래픽을 재경로하여 고 대역폭을 유지하는 동적 혼잡 회피, 데이터 손실로부터 빠른 복구 위한 지능형 재전송 및 마이크로초 수준의 장애 우회 (네트워크 경로 실패를 하드웨어 속도로 감지) 를 통해 이를 해결합니다. 미시급 트래픽 가시성은 관리자가 라우팅을 제어할 수 있게 하여 규모에 따른 운영을 단순화합니다.
Spectrum-X 와 MRC 의 또 다른 중요한 혁신은 멀티 플레인 네트워크 아키텍처 지원입니다. 멀티 플레인 네트워크는 GPU 간 대안 통신 경로를 제공하는 여러 독립적인 네트워크 팩토리를 구성하는 '플레인'으로 이루어져 있습니다. Spectrum-X 의 멀티 플레인 기능은 이러한 플레인을 통한 하드웨어 가속 로드 밸런싱을 추가하여 성능을 희생하지 않으면서 복원력과 규모를 향상시킵니다. 이 아키텍처는 수백만 개의 GPU 로 확장되도록 예측 가능한 낮은 지연 시간을 유지하며, 이는 프론티어 LLM 훈련이 더 커지고 복잡해짐에 따라 표준이 되는 요구사항입니다. 오늘날 멀티 플레인은 대규모 클러스터에서 매우 일반화되었습니다.
운영자가 인프라를 제어할 때 MRC 가 특히 중요합니다. 전용 또는 소유 하드웨어에서 실행되면 운영자는 커스텀 프로토콜을 튜닝하고 라우팅 동작을 형성하며 특정 클러스터 아키텍처에 맞는 테lemetry 를 배포할 수 있습니다. 네트워크가 임대 용량 뒤에 렌티드 블랙 박스로만 있다면 이러한 깊은 최적화에 대한 공간이 적습니다. Spectrum-X 는 이미 RoCEv2 를 사용하며 Spectrum-4 와 Spectrum-5 세대를 통해 실행되므로 이러한 기능은 미래 표준 논의뿐만 아니라 이미 배포되고 규모에 따라 운영되고 있습니다.
Spectrum-X 와 MRC 는 OpenAI 및 Oracle, Microsoft 등 주요 하이퍼스케일러에서 이미 배포되었습니다. 이것이 단순한 화이트페이퍼를 넘어선 것입니다. MRC 는 일부 가장 큰 AI 인프라 환경에서 이미 운영되는 기능으로 논의되고 있습니다.
MRC 는 폐쇄적인 NVIDIA 기술이 아닙니다. NVIDIA 는 AMD, Broadcom, Intel 및 주요 클라우드 제공업체와 함께 개발에 협력했습니다. 프로토콜은 이제 Open Compute Project 를 통해 개방된 사양으로 출시되어 더 넓은 산업이 상호 운용 가능한 Spectrum-X 호환 네트워킹 스택을 구축할 수 있습니다. 두 가지 모두 NVIDIA SuperNIC 과 Spectrum-X 스위치에서 원생적으로 실행되므로 고객은 워크로드에 가장 적합한 전송 프로토콜을 선택할 수 있습니다.
경쟁 측면에서 보면, Ultra Ethernet 컨소시엄은 오픈 AI 네트워킹 표준에 대해 업계 내에서 큰 호응을 불러일으켰습니다. Spectrum-X 는 현재 RoCEv2 와 MRC 를 여러 세대 의 Spectrum-X 스위치 에 배포하고 있습니다. NVIDIA 가 프로토콜 을 오픈 소스 하는 것은 더 넓은 오픈 전략 의 또 다른 단계이며, 동시에 이를 배포하기 위한 최적의 하드웨어 및 소프트웨어 플랫폼 으로 Spectrum-X 를 유지하고 있습니다. 프로토콜 측면에서 무엇을 하고 있는지 공개함으로써 NVIDIA 는 네트워킹 팀 이 OpenAI 와 다른 고객들과 함께 Spectrum 을 통해 구축한 것에 대해 매우 자신감을 가지고 있음을 보여줍니다.
마지막 말
MRC 의 중요한 부분은 NVIDIA 가 Spectrum-X 를 Ethernet 의 독점적 대안 보다 더 Ethernet 기반 AI 팩토리를 위한 프로덕션 경로 로 느끼게 하려는 시도에 있습니다. 대규모 훈련 워크로드 를 실행하는 고객들을 위해 하드웨어 가속화된 로드 밸런싱, 동적 혼잡 회피, 마이크로초 단위의 장애 복구 는 실제 클러스터 문제를 해결합니다. NVIDIA 는 현재 배포와 하드웨어를 보유하고 있지만, 오픈 스펙 지정 각도는 이 것을 Spectrum-X 기능 발표 의 또 다른 것 보다 더 중요하게 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 ServeTheHome의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기