X요약2026. 05. 16. 04:36

MI300X에서 TSP는 테스트된 어떤 방식보다도 가장 낮은 메모리 사용량을 보입니다

요약

MI300X 환경에서 TSP 방식은 테스트된 모든 방법 중 가장 낮은 메모리 사용량을 보여줍니다. 특히 64K 컨텍스트에서는 가중치(weight)와 활성화(activation) 모두를 효율적으로 처리하여 기존 TP(Tensor Parallelism)의 장점과 SP(Sparsity Parallelism)의 장점을 결합합니다. 이로 인해 TSP는 높은 처리량(throughput)을 제공하며, 128K 토큰 컨텍스트에서 173M tok/sec라는 우수한 성능을 기록했습니다.

핵심 포인트

TSP 방식은 MI300X 환경에서 가장 낮은 메모리 사용량을 달성합니다.
64K 컨텍스트에서는 가중치와 활성화 모두를 효율적으로 처리하여 최적의 장점을 제공합니다.
TSP는 TP(Tensor Parallelism)의 가중치 샤딩과 SP(Sparsity Parallelism)의 활성화 샤딩을 결합한 방식입니다.
동일 조건에서 TSP는 173M tok/sec로, 기존 TP+SP 방식인 86M 대비 높은 처리량을 보여줍니다.

MI300X에서, TSP는 테스트된 어떤 방식보다도 가장 낮은 메모리 사용량을 보입니다

8K 컨텍스트(context)에서는 가중치(weight)가 지배적이므로 TSP≈TP입니다.

64K 컨텍스트에서는 가중치(weight)와 활성화(activation)가 모두 지배적이므로 TSP가 두 방식의 장점을 모두 제공합니다.

TSP는 TP의 가중치 샤딩(weight-sharding)과 SP의 활성화 샤딩(activation-sharding)을 계승합니다.

TSP는 더 높은 처리량(throughput)을 제공합니다. 1024개의 MI300X GPU 환경 - 128K 토큰의 컨텍스트 - 모델 복사본당 8개의 GPU 사용 시, TSP는 173M tok/sec를 기록하며, 이는 동일 조건의 TP+SP 방식인 86M와 대조됩니다.

TSP는 EP 및 PP와 같은 기존 방식들과 병행하여 존재할 수 있습니다.

논문:
https://arxiv.org/abs/2604.26294
블로그:
https://zyphra.com/post/tsp

@ZyphraAI는 캘리포니아주 샌프란시스코에 본사를 둔 개방형 초지능(superintelligence) 연구 및 제품 기업으로, 개인과 조직이 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬(human-aligned) AI를 구축하는 것을 사명으로 합니다.

저희와 함께하기 위해 지원하세요!

AI 자동 생성 콘텐츠

원문 바로가기

MI300X에서 TSP는 테스트된 어떤 방식보다도 가장 낮은 메모리 사용량을 보입니다

요약

핵심 포인트

댓글