MI300X에서 TSP는 테스트된 어떤 방식보다도 가장 낮은 메모리 사용량을 보입니다
요약
MI300X 환경에서 TSP 방식은 테스트된 모든 방법 중 가장 낮은 메모리 사용량을 보여줍니다. 특히 64K 컨텍스트에서는 가중치(weight)와 활성화(activation) 모두를 효율적으로 처리하여 기존 TP(Tensor Parallelism)의 장점과 SP(Sparsity Parallelism)의 장점을 결합합니다. 이로 인해 TSP는 높은 처리량(throughput)을 제공하며, 128K 토큰 컨텍스트에서 173M tok/sec라는 우수한 성능을 기록했습니다.
핵심 포인트
- TSP 방식은 MI300X 환경에서 가장 낮은 메모리 사용량을 달성합니다.
- 64K 컨텍스트에서는 가중치와 활성화 모두를 효율적으로 처리하여 최적의 장점을 제공합니다.
- TSP는 TP(Tensor Parallelism)의 가중치 샤딩과 SP(Sparsity Parallelism)의 활성화 샤딩을 결합한 방식입니다.
- 동일 조건에서 TSP는 173M tok/sec로, 기존 TP+SP 방식인 86M 대비 높은 처리량을 보여줍니다.
MI300X에서, TSP는 테스트된 어떤 방식보다도 가장 낮은 메모리 사용량을 보입니다
8K 컨텍스트(context)에서는 가중치(weight)가 지배적이므로 TSP≈TP입니다.
64K 컨텍스트에서는 가중치(weight)와 활성화(activation)가 모두 지배적이므로 TSP가 두 방식의 장점을 모두 제공합니다.
TSP는 TP의 가중치 샤딩(weight-sharding)과 SP의 활성화 샤딩(activation-sharding)을 계승합니다.
TSP는 더 높은 처리량(throughput)을 제공합니다. 1024개의 MI300X GPU 환경 - 128K 토큰의 컨텍스트 - 모델 복사본당 8개의 GPU 사용 시, TSP는 173M tok/sec를 기록하며, 이는 동일 조건의 TP+SP 방식인 86M와 대조됩니다.
TSP는 EP 및 PP와 같은 기존 방식들과 병행하여 존재할 수 있습니다.
논문:
https://arxiv.org/abs/2604.26294
블로그:
https://zyphra.com/post/tsp
@ZyphraAI는 캘리포니아주 샌프란시스코에 본사를 둔 개방형 초지능(superintelligence) 연구 및 제품 기업으로, 개인과 조직이 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬(human-aligned) AI를 구축하는 것을 사명으로 합니다.
저희와 함께하기 위해 지원하세요!
AI 자동 생성 콘텐츠
본 콘텐츠는 X @zyphraai (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기