Google의 Virgo 네트워크, 134K개의 TPUv8t 칩을 47 Pbps로 상호 연결

요약

Google이 대규모 모델 학습을 위해 설계된 Virgo 네트워크 아키텍처와 TPUv8t 칩을 공개했습니다. Virgo는 최대 134,400개의 TPUv8t를 47 Pbps의 압도적인 대역폭으로 연결하여 차세대 프런티어 모델 학습을 지원합니다.

핵심 포인트

Virgo 네트워크는 최대 47 Pbps의 비차단 이분 대역폭 제공
TPUv8t는 대규모 배치 학습에 최적화된 8세대 TPU 변형 모델
NVIDIA의 NVLink 및 InfiniBand와 경쟁하는 스케일아웃 아키텍처
134,400개의 칩 연결을 통해 초거대 모델 학습 병목 현상 해결

Google의 Virgo 네트워크는 대규모 학습 클러스터를 목표로 134,400개의 TPUv8t 칩을 47 Pbps로 상호 연결합니다.

Google의 Virgo 네트워크는 최대 134,400개의 TPUv8t 칩을 47 Pbps로 상호 연결합니다. @SemiAnalysis_가 공개한 이 스케일아웃 (scale-out) 아키텍처는 프런티어 모델 (frontier models)을 위한 학습 클러스터를 목표로 합니다.

주요 사실

Virgo는 최대 134,400개의 TPUv8t 칩을 상호 연결합니다.
비차단 이분 대역폭 (Non-blocking bisectional bandwidth): 47 Pbps.
TPUv8t는 Google TPU의 학습 특화 변형 모델입니다.
47 Pbps는 약 47,000 Tbps와 같습니다.
NVIDIA의 NVLink 및 InfiniBand 패브릭 (fabrics)과 경쟁합니다.

Google은 Virgo라고 불리는 스케일아웃 네트워크 아키텍처와 함께 학습에 특화된 새로운 TPU인 TPUv8t를 도입했습니다. @SemiAnalysis_에 따르면, Virgo는 최대 47 Pbps의 비차단 이분 대역폭 (non-blocking bisectional bandwidth)으로 최대 134,400개의 칩을 상호 연결할 수 있습니다. 이 대역폭 수치는 이전의 상호 연결 기술들을 압도합니다. 비교하자면, InfiniBand NDR 400 스위치는 포트당 최대 약 3.2 Tbps이며, NVIDIA의 NVLink Switch는 GPU 방향당 900 GB/s를 지원합니다.

47 Pbps가 중요한 이유

47 Pbps는 대략 47,000 Tbps로, 미국 의회 도서관의 모든 인쇄물을 1초도 안 되어 전송할 수 있는 양입니다. 100,000개 이상의 가속기를 사용하는 클러스터에서의 학습 실행 시, 상호 연결 (interconnect)은 종종 병목 현상 (bottleneck)이 됩니다. 대역폭이 불충분하면 10만 개 이상의 칩에 걸친 올리듀스 (all-reduce) 그래디언트 연산이 중단될 수 있습니다. Virgo의 비차단 (non-blocking) 설계는 모든 칩이 동시에 최대 라인 레이트 (line rate)로 다른 모든 칩과 통신할 수 있음을 의미하며, 이는 트리 기반 (tree-based) 또는 패트리 (fat-tree) 토폴로지에서 발생하는 헤드 오브 라인 블로킹 (head-of-line blocking) 문제를 제거합니다.

TPUv8t: 학습 우선 설계

Google은 TPUv8t의 가공되지 않은 FLOPS(Floating Point Operations Per Second)나 메모리 대역폭(memory bandwidth)을 공개하지 않았으나, "t" 접미사는 8세대 TPU의 학습 최적화 변형(training-optimized variant)임을 나타냅니다. 이전 TPU 세대(v4, v5p, v6)는 범용(general-purpose)이었으나, v8t는 대규모 배치 학습(large-batch training) 작업에서 더 높은 지속 처리량(sustained throughput)을 위해 추론 효율성(inference efficiency)의 일부를 희생한 것으로 보입니다. 134,400개의 칩 상한선은 Google이 Gemini 및 GPT-4급 모델에 사용되는 100K-GPU 규모와 맞먹는 클러스터를 목표로 하고 있음을 시사합니다.

경쟁적 위치

Virgo는 NVIDIA의 NVLink 및 InfiniBand 패브릭(fabrics), 그리고 AMD의 Infinity Fabric과 직접 경쟁합니다. 그러나 현재 그 정도 규모에서 47 Pbps의 총 대역폭(aggregate bandwidth)을 광고하는 상용 인터커넥트(interconnect)는 없습니다. Google의 맞춤형 실리콘(custom silicon) 접근 방식은 TPU와 네트워크 토폴로지(network topology) 간의 더 긴밀한 통합을 가능하게 하여, 제3자 스위치(third-party switches)에 비해 잠재적으로 지연 시간(latency)과 전력 소비를 줄일 수 있습니다. 또한 이 아키텍처는 AWS가 Trainium/Nitro 조합을 구축하는 방식과 유사하게, AI 인프라를 위한 Google의 수직 계열화(vertical integration) 전략과 일치합니다.

미지수

Google은 Virgo의 포트당 대역폭(per-port bandwidth), 지연 시간(latency) 또는 전력 소모량을 발표하지 않았습니다. 또한 MLPerf와 같은 표준 벤치마크에서 TPUv8t의 학습 성능도 공개하지 않았습니다. 134,400개의 칩 수치는 이론적 최대치이며, 실제 클러스터는 이보다 작을 수 있습니다. [@SemiAnalysis_]는 Virgo 또는 TPUv8t가 언제 생산에 들어갈지는 명시하지 않았습니다.

주목할 점

TPUv8t의 MLPerf 학습 제출 결과와 Virgo 기반 TPU 슬라이스(slices)에 대한 Google Cloud의 가격 책정을 주목하십시오. 또한 Google이 Virgo를 제3자 하드웨어에 라이선스할지, 아니면 내부 학습 실행을 위해 독점적(proprietary)으로 유지할지도 추적해야 합니다.

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기