arXiv논문2026. 05. 09. 20:23

MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with

요약

MoE-Hub는 대규모 언어 모델(LLM)에서 발생하는 MoE 아키텍처의 확장성 문제를 해결하기 위해 제안된 하드웨어-소프트웨어 공동 설계 솔루션입니다. 기존 시스템은 MoE의 동적 토큰-전문가 매핑과 GPU의 정적 주소 기반 통신 간의 불일치로 인해 복잡한 소프트웨어 중재 단계를 거쳐야 했고, 이는 성능 저하를 야기했습니다. MoE-Hub는 데이터 전송을 주소 관리에서 분리하고 로직적 목적지만 사용하여 라우팅함으로써, 하드웨어 가속화된 통신 제어 평면을 통해 원활하고 투명한 겹침(overlap)을 가능하게 하여 성능을 크게 향상시킵니다.

핵심 포인트

MoE 아키텍처의 확장성 제한은 멀티 GPU 시스템에서의 인터-GPU 통신 병목 현상에서 기인합니다.
기존 문제는 MoE의 동적 매핑과 GPU의 정적 주소 기반 통신 모델 간의 근본적인 추상화 불일치였습니다.
MoE-Hub는 하드웨어-소프트웨어 공동 설계를 통해 '주소 무관(address-agnostic)' 통신 패러다임을 도입했습니다.
데이터 전송을 주소 관리에서 분리하여, 로직적 목적지만으로 라우팅 및 데이터 전송이 가능해졌습니다.
평가 결과, MoE-Hub는 기존 시스템 대비 레이어당 1.40배~3.08배, 엔드투엔드 1.21배~1.98배의 속도 향상을 달성했습니다.

Mixture-of-Experts (MoE) 아키텍처는 대규모 언어 모델의 확장성을 위해 중요하지만, 멀티 GPU 시스템에서의 인터-GPU 통신 병목 현상으로 인해 확장성이 심각하게 제한됩니다. 계산과 통신을 겹치는 것은 널리 알려진 최적화이지만, 성능과 프로그래밍 가능성 측면에서 여전히 효과적인 배포가 어렵습니다. 본 작업에서는 MoE 의 동적, 불규칙한 토큰-에xpert 매핑과 현대 GPU 의 정적, 주소 중심 통신 모델 사이의 근본적인 추상화 불일치를 원인으로 파악했습니다. 이는 데이터 전송 전에 주소를 해결하기 위해 복잡한 소프트웨어 중재 단계를 필요로 하여 성능과 소프트웨어 유연성을 제한합니다. 이를 해결하기 위해 우리는 MoE-Hub 을 제안합니다. MoE-Hub 은 하드웨어-소프트웨어 공동 설계를 도입하여 주소 무관 통신 패러다임을 소개합니다. MoE-Hub 은 데이터 전송을 주소 관리에서 분리하여, 로직적 목적지만 사용하여 라우팅 후 즉시 데이터를 보낼 수 있게 하며, 주소 할당과 데이터 흐름 오케스트레이션은 GPU 허브의 경량 하드웨어가 투명하게 처리합니다. 하드웨어 가속화된 전체 통신 제어 평면을 통해 MoE-Hub 은 원활하고 투명한 겹침을 가능하게 합니다. 우리의 평가는 MoE-Hub 이 최신 시스템 대비 1.40 배~~3.08 배의 레이어당 속도 향상과 1.21 배~~1.98 배의 엔드투엔드 속도 향상을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with

요약

핵심 포인트

댓글