본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 28. 22:36

Zai가 GLM-5.1 추론을 실행하는 네트워크 아키텍처를 교체했으며, 그 성능 향상은 매우 놀랍습니다

요약

Zai가 GLM-5.1 추론을 위해 자체 개발한 ZCube 네트워크 아키텍처를 도입하여 성능을 대폭 개선했습니다. 기존 ROFT 방식의 트래픽 불균형 문제를 해결하여 비용은 줄이고 처리량과 지연 시간 성능은 높였습니다.

핵심 포인트

  • ZCube 아키텍처 도입으로 스위치 및 광 모듈 비용 33% 절감
  • GPU 추론 처리량 15% 향상 및 P99 지연 시간 40.6% 감소
  • Prefill-Decode 분리 추론 시 발생하는 비대칭 트래픽 문제 해결
  • Spine 계층을 제거한 평탄화된 완전 이분 그래프 구조 채택

최근 AI 인프라 측면을 더 주의 깊게 지켜보고 있는데, Zai에서 발표한 이 내용을 우연히 발견했습니다. 이들은 GLM-5.1 코딩 추론 (coding inference)을 실행하는 1,000개의 GPU 클러스터에서 네트워크 아키텍처를 표준 ROFT 설정에서 Tsinghua University 및 HarnetsAI와 함께 개발한 ZCube라는 자체 구축 시스템으로 업그레이드했습니다.

실제 운영 데이터:

  • 스위치 및 광 모듈 (optical module) 비용 33% 감소

  • GPU 추론 처리량 (throughput) 15% 증가

  • 첫 번째 토큰에 대한 P99 꼬리 지연 시간 (tail latency) 40.6% 감소

동일한 GPU, 동일한 소프트웨어 스택, 동일한 모델입니다. 오직 네트워크 아키텍처만 변경되었습니다.

그들이 해결하려 했던 실제 문제는 흥미롭습니다. Prefill-Decode 분리 추론 (disaggregated inference) 환경에서는 KV 캐시 (KV Cache) 전송이 노드 간에 매우 비대칭적인 트래픽을 생성합니다. ROFT 토폴로지 (topology)는 학습 워크로드는 잘 처리하지만, PD 분리 (PD disaggregation) 환경에서는 트래픽 패턴이 정적 레일 매핑 (static rail mapping)과 일치하지 않아 특정 리프 스위치 (Leaf switch)에 핫스팟이 발생하고 PFC 백프레셔 (backpressure)가 쌓이게 됩니다.

ZCube는 Spine 계층을 완전히 제거하고 두 스위치 그룹 간의 완전 이분 그래프 상호 연결 (complete bipartite interconnect)을 사용하는 완전히 평탄화된 (flattened) 방식을 통해 이 문제를 해결합니다. 이는 ROFT가 설계상 피할 수 없었던 한 범주의 혼잡을 제거합니다.

성능을 향상시키면서 비용을 절감했다는 점이 특히 눈에 띕니다. 보통 더 나은 네트워크 하드웨어를 사용하려면 더 많은 비용을 지불해야 합니다. 하지만 여기서 그들은 하드웨어 비용을 3분의 1로 줄이면서 동일한 GPU에서 15% 더 높은 처리량을 얻어냈습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0