디스패치 연산의 오버헤드 진단: 교차 아키텍처 관측소
요약
MoE(Mixture-of-Experts) 모델의 전문가 병렬성(EP)에서 발생하는 AlltoAll 디스패치 병목 현상을 분석하기 위해 DODOCO 프레임워크를 도입했습니다. 연구 결과, 기존의 완화 방식들이 전제하던 라우팅 불균형 교정 가능성과 모의 토큰 벤치마크의 정확성이 실제 환경에서는 유효하지 않음을 입증했습니다. 특히 모델 아키텍처에 따라 라우팅 패턴이 특정 밴드로 나뉘는 현상을 발견하여, 새로운 설계 방향을 제시합니다.
핵심 포인트
- AlltoAll 디스패치 지연은 전문가 배치 문제가 아닌 모델의 내재된 라우팅 결정 문제임
- 모의 토큰(mock-token) 벤치마크는 실제 라우팅의 지니 계수를 최대 2.35배까지 과대평가함
- EP 스케일링은 전문가당 토큰 비율 변화를 5% 미만으로 제한하여 불균형 해소에 한계가 있음
- 아키텍처는 데이터 탄력적(MHA, Mamba-2) 그룹과 지속적 집중(MLA, GDN) 그룹으로 구분됨
AlltoAll 디스패치 (dispatch)는 MoE (Mixture-of-Experts) 전문가 병렬성 (expert parallelism)의 지배적인 병목 현상이며, 상호 연결 (interconnect) 커뮤니티는 예측적 샘플 배치 (predictive sample placement), 적응형 전문가 재배치 (adaptive expert relayout), 계층적 집합 통신 (hierarchical collectives), 그리고 EP 인지 토폴로지 (EP-aware topology)라는 네 가지 완화 방식군으로 대응해 왔습니다. 이 네 가지 방식 모두 워크로드에 관한 두 가지 가정에 기반하고 있습니다. 첫 번째는 라우팅 불균형 (routing imbalance)이 시스템 계층에서 교정 가능하다는 것이며, 두 번째는 이를 평가하는 모의 토큰 (mock-token) 벤치마크가 실제 운영 환경의 라우팅을 충실히 나타낸다는 것입니다. 우리는 이 두 가지 가정을 테스트하기 위해 DODOCO를 도입합니다. 우리는 5x6 그리드의 데이터 조건과 H100에서의 4~32 랭크 (rank)에 대한 일치하는 EP 스캔 하에서, 다섯 가지 시퀀스 믹서 (sequence-mixer) 설계 (DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2, Qwen3.5-35B GDN)에 걸친 다섯 개의 MoE 체크포인트를 계측하였습니다. 그 결과 두 가정 모두 실패하는 것으로 나타났습니다. EP 스케일링 (Scaling EP)은 모든 아키텍처의 측정 가능한 범위 내에서 전문가당 최대/평균 토큰 비율을 최대 5%까지만 변화시켰습니다. 즉, 지연 발생 (straggler)은 전문가가 랭크에 어떻게 배치되느냐가 아니라, 모델이 내리는 라우팅 결정에 내재된 문제입니다. 모의 토큰은 라우팅 지니 계수 (routing Gini)를 최대 2.35배까지 과대평가하며, 실제 텍스트가 무작위 ID를 대체하는 순간 사라지는 배치 크기 스케일링 (batch-size scaling) 추세를 조작해냅니다. 동일한 매트릭스에서 예상치 못한 세 번째 패턴이 나타납니다. 다섯 가지 아키텍처가 두 개의 안정적인 밴드 (bands)로 나뉩니다. MHA와 Mamba-2 (데이터 탄력적)는 wikitext에서 지니 계수 0.105와 0.150으로 떨어집니다. MLA와 GDN (지속적으로 집중됨)은 모든 실제 텍스트 조건에서 0.24 이상을 유지하며, 모의 데이터에서는 0.29에서 0.38에 달합니다. GQA는 중간 사례입니다. AlltoAll 인지 상호 연결 및 디스패치 설계를 위한 올바른 워크로드 입력은 EP 정도나 모의 데이터 프로필이 아니라, 바로 이러한 밴드입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기