본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 09. 20:23

MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with

요약

MoE-Hub는 대규모 언어 모델(LLM)에서 발생하는 MoE 아키텍처의 확장성 문제를 해결하기 위해 제안된 하드웨어-소프트웨어 공동 설계 솔루션입니다. 기존 시스템은 MoE의 동적 토큰-전문가 매핑과 GPU의 정적 주소 기반 통신 간의 불일치로 인해 복잡한 소프트웨어 중재 단계를 거쳐야 했고, 이는 성능 저하를 야기했습니다. MoE-Hub는 데이터 전송을 주소 관리에서 분리하고 로직적 목적지만 사용하여 라우팅함으로써, 하드웨어 가속화된 통신 제어 평면을 통해 원활하고 투명한 겹침(overlap)을 가능하게 하여 성능을 크게 향상시킵니다.

핵심 포인트

  • MoE 아키텍처의 확장성 제한은 멀티 GPU 시스템에서의 인터-GPU 통신 병목 현상에서 기인합니다.
  • 기존 문제는 MoE의 동적 매핑과 GPU의 정적 주소 기반 통신 모델 간의 근본적인 추상화 불일치였습니다.
  • MoE-Hub는 하드웨어-소프트웨어 공동 설계를 통해 '주소 무관(address-agnostic)' 통신 패러다임을 도입했습니다.
  • 데이터 전송을 주소 관리에서 분리하여, 로직적 목적지만으로 라우팅 및 데이터 전송이 가능해졌습니다.
  • 평가 결과, MoE-Hub는 기존 시스템 대비 레이어당 1.40배~3.08배, 엔드투엔드 1.21배~1.98배의 속도 향상을 달성했습니다.

Mixture-of-Experts (MoE) 아키텍처는 대규모 언어 모델의 확장성을 위해 중요하지만, 멀티 GPU 시스템에서의 인터-GPU 통신 병목 현상으로 인해 확장성이 심각하게 제한됩니다. 계산과 통신을 겹치는 것은 널리 알려진 최적화이지만, 성능과 프로그래밍 가능성 측면에서 여전히 효과적인 배포가 어렵습니다. 본 작업에서는 MoE 의 동적, 불규칙한 토큰-에xpert 매핑과 현대 GPU 의 정적, 주소 중심 통신 모델 사이의 근본적인 추상화 불일치를 원인으로 파악했습니다. 이는 데이터 전송 전에 주소를 해결하기 위해 복잡한 소프트웨어 중재 단계를 필요로 하여 성능과 소프트웨어 유연성을 제한합니다. 이를 해결하기 위해 우리는 MoE-Hub 을 제안합니다. MoE-Hub 은 하드웨어-소프트웨어 공동 설계를 도입하여 주소 무관 통신 패러다임을 소개합니다. MoE-Hub 은 데이터 전송을 주소 관리에서 분리하여, 로직적 목적지만 사용하여 라우팅 후 즉시 데이터를 보낼 수 있게 하며, 주소 할당과 데이터 흐름 오케스트레이션은 GPU 허브의 경량 하드웨어가 투명하게 처리합니다. 하드웨어 가속화된 전체 통신 제어 평면을 통해 MoE-Hub 은 원활하고 투명한 겹침을 가능하게 합니다. 우리의 평가는 MoE-Hub 이 최신 시스템 대비 1.40 배3.08 배의 레이어당 속도 향상과 1.21 배1.98 배의 엔드투엔드 속도 향상을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0