Reddit요약2026. 05. 28. 22:36

Zai가 GLM-5.1 추론을 실행하는 네트워크 아키텍처를 교체했으며, 그 성능 향상은 매우 놀랍습니다

요약

Zai가 GLM-5.1 추론을 위해 자체 개발한 ZCube 네트워크 아키텍처를 도입하여 성능을 대폭 개선했습니다. 기존 ROFT 방식의 트래픽 불균형 문제를 해결하여 비용은 줄이고 처리량과 지연 시간 성능은 높였습니다.

핵심 포인트

ZCube 아키텍처 도입으로 스위치 및 광 모듈 비용 33% 절감
GPU 추론 처리량 15% 향상 및 P99 지연 시간 40.6% 감소
Prefill-Decode 분리 추론 시 발생하는 비대칭 트래픽 문제 해결
Spine 계층을 제거한 평탄화된 완전 이분 그래프 구조 채택

최근 AI 인프라 측면을 더 주의 깊게 지켜보고 있는데, Zai에서 발표한 이 내용을 우연히 발견했습니다. 이들은 GLM-5.1 코딩 추론 (coding inference)을 실행하는 1,000개의 GPU 클러스터에서 네트워크 아키텍처를 표준 ROFT 설정에서 Tsinghua University 및 HarnetsAI와 함께 개발한 ZCube라는 자체 구축 시스템으로 업그레이드했습니다.

실제 운영 데이터:

스위치 및 광 모듈 (optical module) 비용 33% 감소
GPU 추론 처리량 (throughput) 15% 증가
첫 번째 토큰에 대한 P99 꼬리 지연 시간 (tail latency) 40.6% 감소

동일한 GPU, 동일한 소프트웨어 스택, 동일한 모델입니다. 오직 네트워크 아키텍처만 변경되었습니다.

그들이 해결하려 했던 실제 문제는 흥미롭습니다. Prefill-Decode 분리 추론 (disaggregated inference) 환경에서는 KV 캐시 (KV Cache) 전송이 노드 간에 매우 비대칭적인 트래픽을 생성합니다. ROFT 토폴로지 (topology)는 학습 워크로드는 잘 처리하지만, PD 분리 (PD disaggregation) 환경에서는 트래픽 패턴이 정적 레일 매핑 (static rail mapping)과 일치하지 않아 특정 리프 스위치 (Leaf switch)에 핫스팟이 발생하고 PFC 백프레셔 (backpressure)가 쌓이게 됩니다.

ZCube는 Spine 계층을 완전히 제거하고 두 스위치 그룹 간의 완전 이분 그래프 상호 연결 (complete bipartite interconnect)을 사용하는 완전히 평탄화된 (flattened) 방식을 통해 이 문제를 해결합니다. 이는 ROFT가 설계상 피할 수 없었던 한 범주의 혼잡을 제거합니다.

성능을 향상시키면서 비용을 절감했다는 점이 특히 눈에 띕니다. 보통 더 나은 네트워크 하드웨어를 사용하려면 더 많은 비용을 지불해야 합니다. 하지만 여기서 그들은 하드웨어 비용을 3분의 1로 줄이면서 동일한 GPU에서 15% 더 높은 처리량을 얻어냈습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Zai가 GLM-5.1 추론을 실행하는 네트워크 아키텍처를 교체했으며, 그 성능 향상은 매우 놀랍습니다

요약

핵심 포인트

댓글