Expert 활성화 패턴을 활용한 다중 노드 Mixture-of-Experts 추론 확장
요약
본 논문은 Mixture-of-Experts (MoE) 아키텍처를 사용하는 대규모 언어 모델(LLMs)의 추론 과정에서 발생하는 병목 현상을 다룹니다. 특히, 여러 노드에 분산된 환경에서 발생하는 비효율적인 토큰 라우팅과 높은 all-to-all 통신 오버헤드를 해결하는 데 초점을 맞춥니다. 연구진은 실제 MoE 모델들의 전문가 활성화 패턴을 분석하여, 부하 불균형 및 도메인별 전문가 선호도 등의 공통 특성을 발견했으며, 이를 바탕으로 워크로드 인식 마이크로 배치 그룹화와 전문가 배치 전략을 제안했습니다. 이 최적화 기법은 노드 간 통신 데이터를 최대 20%까지 줄여 MoE 디코드 지연 시간을 개선하고 가속기 활용도를 높이는 효과를 입증했습니다.
핵심 포인트
- MoE LLM의 대규모 추론은 전문가 부하 불균형과 비효율적인 토큰 라우팅으로 인해 병목 현상이 발생한다.
- 실제 MoE 모델들의 분석 결과, 모든 최첨단 모델에서 가변적 부하 불균형 및 작업 유형별(도메인별) 전문가 활성화 패턴이 관찰되었다.
- 연구진은 '워크로드 인식 마이크로 배치 그룹화'와 '전문가 배치 전략'을 제안하여 토큰 로컬리티를 극대화하는 방법을 제시했다.
- 제안된 최적화 기법은 all-to-all 통신 데이터를 최대 20%까지 감소시켜 MoE 디코드 지연 시간을 줄이고 가속기 활용도를 향상시킨다.
최근 최첨단 (SOTA) 대형 언어 모델 (LLMs) 은 Mixture-of-Experts (MoE) 아키텍처를 사용하여 토큰당 연산량을 비례하지 않게 확장함으로써, 관리 가능한 서비스 비용으로 더 높은 품질의 출력을 가능하게 합니다. 그러나 대규모 MoE 추론은 근본적으로 전문가 부하 불균형과 비효율적인 토크인 라우팅에 의해 병목화되며, 특히 토큰이 로컬 전문가로 라우팅되지 않는 다중 노드 배포 환경에서는 노드 간 모든 대 모든 (all-to-all) 통신 오버헤드가 크게 발생합니다. 이러한 과제를 체계적으로 규명하기 위해 우리는 Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B 를 포함한 최첨단 오픈소스 MoE 모델들을 다양한 데이터셋에서 프로파일링하여 10 만 개 이상의 실제 전문가 활성화 트레이스를 수집했습니다. 전문가 활성화 패턴을 연구한 결과, 모든 프론티어 MoE 모델에서 일관된 특성을 발견했습니다: 가변적인 전문가 부하 불균형, 작업 계열 (코드, 수학, 채팅, 일반) 에 따라 전문가 인기가 달라지는 도메인별 전문가 활성화, 그리고 프리필 (prefill) 과 디코드 (decode) 전문가 활성화 간의 강한 상관관계입니다. 이러한 발견에 영감을 받아 우리는 워크로드 인식 마이크로 배치 그룹화 (workload-aware micro-batch grouping) 와 전문가 배치 전략을 제안하여 목적지 전문가로의 토큰 로컬리티를 극대화하고 노드 간 통신을 줄입니다. 모델과 데이터셋 전반에서 이러한 최적화는 all2all 통신 데이터를 최대 20%까지 감소시켜, 더 낮은 MoE 디코드 지연 시간과 향상된 가속기 활용도를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기