arXiv논문2026. 06. 02. 10:47

태스크 불가지론적 방식을 넘어: 통신 효율적인 멀티태스크 MoE 추론을 위한 태스크 인지형 그룹화

요약

MoE 모델의 분산 추론 시 발생하는 GPU 간 통신 비용을 줄이기 위해 태스크 인지형 그룹화(TACG) 방식을 제안합니다. 태스크별로 다른 전문가 활성화 패턴을 반영하여 전문가를 배치함으로써 통신 효율을 높이고 부하 불균형을 완화합니다.

핵심 포인트

태스크별 공동 활성화 패턴을 반영한 TACG 프레임워크 제안
평균화된 배치 방식 대신 태스크 인지형 그룹화로 통신 비용 31.39% 절감
GESR 기술을 통해 워크로드 왜곡 상황에서도 정적 배치의 견고함 유지
오픈 소스 MoE 모델 실험을 통해 높은 공정성 지수와 성능 입증

희소 활성화(Sparsely activated) Mixture-of-Experts (MoE) 모델은 조건부 계산(conditional computation)을 통해 용량을 확장하지만, 분산 추론(distributed inference)은 GPU 간 전문가(expert) 통신 및 라우팅(routing)으로 인한 부하 불균형(load imbalance) 문제를 겪습니다. 기존의 배치(placement) 방법들은 자주 함께 활성화되는 전문가들을 같은 위치에 배치함으로써 이 비용을 줄입니다. 그러나 이러한 방법들은 전역적으로 집계된 라우팅 흔적(routing traces)으로부터 단일 배포 계획을 도출하며, 이 과정에서 멀티태스크 서빙(multi-task serving) 시 통신을 실제로 유발하는 이질적이고 태스크 특화적인 공동 활성화(co-activation) 패턴이 평균화되어 사라지게 됩니다.

우리는 전문가의 공동 활성화가 태스크 조건부(task-conditioned)로 강력하게 결정된다는 점을 관찰했습니다. 즉, 한 태스크 군(task family)에서 밀접하게 결합된 쌍이 다른 태스크에서는 상관관계가 없는 경우가 많으므로, 효과적인 배포는 태스크 불가지론적(task-agnostic) 평균이 아닌 태스크 인지형(task-aware) 공동 활성화에 따라 전문가를 그룹화해야 합니다. 이러한 통찰을 바탕으로, 우리는 extit{태스크 인지형 공동 활성화 그룹화 (Task-Aware Coactivation Grouping, TACG)}를 제안합니다. 이는 태스크 군별 디스패치(dispatch) 및 공동 활성화 흔적을 사용하여 전문가별 태스크 군 선호도를 도출하고, 태스크 군 내부의 지역성(intra-family locality)이 그룹화를 지배하도록 공동 활성화 그래프의 가중치를 재설정하며, 정확한 용량 제약 조건 하에서 각 전문가를 기본 GPU에 할당하는 배포 시점의 프레임워크입니다.

온라인 워크로드 왜곡(workload skew) 상황에서도 정적 배치(static placement)의 견고함을 유지하기 위해, 우리는 추가적으로 extit{일반 전문가 공유 복제 (Generic Expert Shared Replication, GESR)}를 도입합니다. 이는 일관되게 중심적인 공동 활성화 프로필을 가진 일반 전문가를 식별하여 소수의 보조 GPU 세트에 복제하고, 서빙 시점에 지역성 및 부하를 인지한 선택(locality- and load-aware selection)을 적용하는 경량 동반 기술입니다. 세 가지 대표적인 오픈 소스 MoE 모델에 대한 실험 결과, 우리 프레임워크는 평균 Jain 공정성 지수(Jain fairness index) 0.9975를 유지하면서 베이스라인 대비 평균 통신 비용을 31.39% 감소시킴을 입증했습니다. 이러한 이점은 추론 데이터의 심각한 분포 변화(distribution shifts) 상황에서도 지속되며, 강력한 베이스라인들을 일관되게 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

태스크 불가지론적 방식을 넘어: 통신 효율적인 멀티태스크 MoE 추론을 위한 태스크 인지형 그룹화

요약

핵심 포인트

댓글