Multi-GPU 환경에서의 MoE 가속을 위한 동적 인-스위칭 컴퓨팅
요약
Mixture-of-Experts (MoE) 모델은 대규모 언어 모델에서 계산 효율성을 높이는 데 사용되지만, 전문가 병렬성(EP) 과정에서의 빈번하고 비규칙적인 인터-GPU 통신이 성능 저하의 주요 원인입니다. 기존의 NVLink SHARP와 같은 솔루션들은 이러한 동적이고 비규칙적인 패턴을 지원하지 못합니다. 본 논문은 이러한 격차를 해소하기 위해, 통합된 동적 인-스위칭 컴퓨팅 솔루션인 DySHARP를 제안했습니다.
핵심 포인트
- MoE 모델의 전문가 병렬성(EP) 과정에서 발생하는 비규칙적인 인터-GPU 통신이 성능 병목 현상을 유발한다.
- 기존의 NVLink SHARP와 같은 솔루션들은 MoE가 요구하는 동적이고 비규칙적인 데이터 전송 패턴을 지원하지 못한다.
- 제안된 DySHARP는 통합 동적 인-스위칭 컴퓨팅 솔루션으로, 통신 원시(primitives)와 통신 인식 스케줄링을 결합했다.
- DySHARP의 핵심 기여는 'Token-centric kernel fusion'을 통해 트래픽 감소를 실제적인 속도 향상으로 변환하여 최대 1.79배의 가속 성능을 달성했다.
Mixture-of-Experts (MoE) 는 많은 선도적인 대형 모델이 계산 요구량을 줄이기 위해 채택하고 있습니다. 그러나, MoE 의 전문가 병렬성 (EP) 에서 빈번한 인터-GPU 통신은 성능의 도전과제가 됩니다. 우리는 MoE 에 있어 동적 인-스위칭 컴퓨팅으로 해결될 잠재력이 있는 상당한 중복 인터-GPU 데이터 전송을 관찰했습니다. 불행히도, 기존 솔루션인 NVLink SHARP (NVLS) 은 정적인 콜렉티브와 규칙적인 패턴만 지원하며, MoE 의 비규칙적인 패턴과 동적 통신을 지원하지 못합니다. 기능 격차를 해소하기 위해, 우리는 DySHARP 를 제안했습니다. 이는 MoE 를 가속화하기 위한 통합 동적 인-스위칭 컴퓨팅 솔루션으로, 통신 원시 (primitives) 와 통신 인식 스케줄링을 포함합니다:
-
Dynamic multimem addressing 은 ISA, 아키텍처, 런타인을 공동 설계하며, NVLS 의 동적 확장에 의해 중복 트래픽을 줄입니다. 그러나, 결과적인 트래픽 감소는 두 방향 간에 본질적으로 비대칭적이어서, 직접적인 속도 향상으로 번역되지 못합니다.
-
Token-centric kernel fusion 은 디스패치-컴퓨팅-콤바인 파이프라인을 심층 융합하여, 이 비대칭성을 해결하고 트래픽 감소를 실제 속도 향상으로 변환합니다.
최적의 솔루션과 비교하여, DySHARP 는 최대 1.79$ imes$ 속도 향상을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기