arXiv논문2026. 04. 28. 20:47

Expert 활성화 패턴을 활용한 다중 노드 Mixture-of-Experts 추론 확장

요약

본 논문은 Mixture-of-Experts (MoE) 아키텍처를 사용하는 대규모 언어 모델(LLMs)의 추론 과정에서 발생하는 병목 현상을 다룹니다. 특히, 여러 노드에 분산된 환경에서 발생하는 비효율적인 토큰 라우팅과 높은 all-to-all 통신 오버헤드를 해결하는 데 초점을 맞춥니다. 연구진은 실제 MoE 모델들의 전문가 활성화 패턴을 분석하여, 부하 불균형 및 도메인별 전문가 선호도 등의 공통 특성을 발견했으며, 이를 바탕으로 워크로드 인식 마이크로 배치 그룹화와 전문가 배치 전략을 제안했습니다. 이 최적화 기법은 노드 간 통신 데이터를 최대 20%까지 줄여 MoE 디코드 지연 시간을 개선하고 가속기 활용도를 높이는 효과를 입증했습니다.

핵심 포인트

MoE LLM의 대규모 추론은 전문가 부하 불균형과 비효율적인 토큰 라우팅으로 인해 병목 현상이 발생한다.
실제 MoE 모델들의 분석 결과, 모든 최첨단 모델에서 가변적 부하 불균형 및 작업 유형별(도메인별) 전문가 활성화 패턴이 관찰되었다.
연구진은 '워크로드 인식 마이크로 배치 그룹화'와 '전문가 배치 전략'을 제안하여 토큰 로컬리티를 극대화하는 방법을 제시했다.
제안된 최적화 기법은 all-to-all 통신 데이터를 최대 20%까지 감소시켜 MoE 디코드 지연 시간을 줄이고 가속기 활용도를 향상시킨다.

최근 최첨단 (SOTA) 대형 언어 모델 (LLMs) 은 Mixture-of-Experts (MoE) 아키텍처를 사용하여 토큰당 연산량을 비례하지 않게 확장함으로써, 관리 가능한 서비스 비용으로 더 높은 품질의 출력을 가능하게 합니다. 그러나 대규모 MoE 추론은 근본적으로 전문가 부하 불균형과 비효율적인 토크인 라우팅에 의해 병목화되며, 특히 토큰이 로컬 전문가로 라우팅되지 않는 다중 노드 배포 환경에서는 노드 간 모든 대 모든 (all-to-all) 통신 오버헤드가 크게 발생합니다. 이러한 과제를 체계적으로 규명하기 위해 우리는 Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B 를 포함한 최첨단 오픈소스 MoE 모델들을 다양한 데이터셋에서 프로파일링하여 10 만 개 이상의 실제 전문가 활성화 트레이스를 수집했습니다. 전문가 활성화 패턴을 연구한 결과, 모든 프론티어 MoE 모델에서 일관된 특성을 발견했습니다: 가변적인 전문가 부하 불균형, 작업 계열 (코드, 수학, 채팅, 일반) 에 따라 전문가 인기가 달라지는 도메인별 전문가 활성화, 그리고 프리필 (prefill) 과 디코드 (decode) 전문가 활성화 간의 강한 상관관계입니다. 이러한 발견에 영감을 받아 우리는 워크로드 인식 마이크로 배치 그룹화 (workload-aware micro-batch grouping) 와 전문가 배치 전략을 제안하여 목적지 전문가로의 토큰 로컬리티를 극대화하고 노드 간 통신을 줄입니다. 모델과 데이터셋 전반에서 이러한 최적화는 all2all 통신 데이터를 최대 20%까지 감소시켜, 더 낮은 MoE 디코드 지연 시간과 향상된 가속기 활용도를 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Expert 활성화 패턴을 활용한 다중 노드 Mixture-of-Experts 추론 확장

요약

핵심 포인트

댓글