태스크 불가지론적 방식을 넘어: 통신 효율적인 멀티태스크 MoE 추론을 위한 태스크 인지형 그룹화
요약
MoE 모델의 분산 추론 시 발생하는 GPU 간 통신 비용을 줄이기 위해 태스크 인지형 그룹화(TACG) 방식을 제안합니다. 태스크별로 다른 전문가 활성화 패턴을 반영하여 전문가를 배치함으로써 통신 효율을 높이고 부하 불균형을 완화합니다.
핵심 포인트
- 태스크별 공동 활성화 패턴을 반영한 TACG 프레임워크 제안
- 평균화된 배치 방식 대신 태스크 인지형 그룹화로 통신 비용 31.39% 절감
- GESR 기술을 통해 워크로드 왜곡 상황에서도 정적 배치의 견고함 유지
- 오픈 소스 MoE 모델 실험을 통해 높은 공정성 지수와 성능 입증
희소 활성화(Sparsely activated) Mixture-of-Experts (MoE) 모델은 조건부 계산(conditional computation)을 통해 용량을 확장하지만, 분산 추론(distributed inference)은 GPU 간 전문가(expert) 통신 및 라우팅(routing)으로 인한 부하 불균형(load imbalance) 문제를 겪습니다. 기존의 배치(placement) 방법들은 자주 함께 활성화되는 전문가들을 같은 위치에 배치함으로써 이 비용을 줄입니다. 그러나 이러한 방법들은 전역적으로 집계된 라우팅 흔적(routing traces)으로부터 단일 배포 계획을 도출하며, 이 과정에서 멀티태스크 서빙(multi-task serving) 시 통신을 실제로 유발하는 이질적이고 태스크 특화적인 공동 활성화(co-activation) 패턴이 평균화되어 사라지게 됩니다.
우리는 전문가의 공동 활성화가 태스크 조건부(task-conditioned)로 강력하게 결정된다는 점을 관찰했습니다. 즉, 한 태스크 군(task family)에서 밀접하게 결합된 쌍이 다른 태스크에서는 상관관계가 없는 경우가 많으므로, 효과적인 배포는 태스크 불가지론적(task-agnostic) 평균이 아닌 태스크 인지형(task-aware) 공동 활성화에 따라 전문가를 그룹화해야 합니다. 이러한 통찰을 바탕으로, 우리는 extit{태스크 인지형 공동 활성화 그룹화 (Task-Aware Coactivation Grouping, TACG)}를 제안합니다. 이는 태스크 군별 디스패치(dispatch) 및 공동 활성화 흔적을 사용하여 전문가별 태스크 군 선호도를 도출하고, 태스크 군 내부의 지역성(intra-family locality)이 그룹화를 지배하도록 공동 활성화 그래프의 가중치를 재설정하며, 정확한 용량 제약 조건 하에서 각 전문가를 기본 GPU에 할당하는 배포 시점의 프레임워크입니다.
온라인 워크로드 왜곡(workload skew) 상황에서도 정적 배치(static placement)의 견고함을 유지하기 위해, 우리는 추가적으로 extit{일반 전문가 공유 복제 (Generic Expert Shared Replication, GESR)}를 도입합니다. 이는 일관되게 중심적인 공동 활성화 프로필을 가진 일반 전문가를 식별하여 소수의 보조 GPU 세트에 복제하고, 서빙 시점에 지역성 및 부하를 인지한 선택(locality- and load-aware selection)을 적용하는 경량 동반 기술입니다. 세 가지 대표적인 오픈 소스 MoE 모델에 대한 실험 결과, 우리 프레임워크는 평균 Jain 공정성 지수(Jain fairness index) 0.9975를 유지하면서 베이스라인 대비 평균 통신 비용을 31.39% 감소시킴을 입증했습니다. 이러한 이점은 추론 데이터의 심각한 분포 변화(distribution shifts) 상황에서도 지속되며, 강력한 베이스라인들을 일관되게 능가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기