arXiv논문2026. 05. 20. 16:34

Sieve: 진화하는 Mixture-of-Experts 모델을 위한 동적 전문가 인식 PIM 가속 기술

요약

MoE 모델의 토큰-대-전문가 분포가 양봉형으로 변함에 따라 발생하는 기존 PIM 시스템의 효율성 저하 문제를 해결하기 위한 새로운 기술을 제안합니다. Sieve는 런타임 토큰 분포에 따라 GPU와 PIM 간의 전문가 실행을 동적으로 분할하고, 연산과 통신을 중첩시켜 처리량을 최적화합니다. 실험 결과, 주요 MoE 모델에서 기존 PIM 시스템 대비 최대 1.6배의 처리량 및 상호작용성 향상을 입증했습니다.

핵심 포인트

현대 MoE 모델은 소수의 전문가에게 토큰이 집중되는 양봉형 전문가 분포 특성을 가짐
기존 PIM 시스템은 이러한 동적인 부하 불균형과 GPU 간 통신 오버헤드를 고려하지 못함
Sieve는 메모리 대역폭, GPU 처리량, 상호 연결 오버헤드 등을 고려하여 전문가 실행을 GPU와 PIM에 동적으로 할당함
GPU 연산, PIM 연산, 장치 간 통신을 중첩(overlap)시켜 실행 효율을 극대화함
Qwen 및 GPT-OSS 모델 테스트 결과, 기존 방식 대비 1.3배~1.6배의 성능 향상 달성

Mixture-of-Experts (MoE)는 대규모 언어 모델 (LLMs)을 확장하기 위한 지배적인 아키텍처가 되었습니다. 그러나 MoE 추론의 실행 특성은 빠르게 변화하고 있으며, 기존의 Processing-in-Memory (PIM) 시스템의 근간이 되는 가정들과 점점 더 불일치하고 있습니다. LLM을 위한 기존 PIM 시스템은 부하 불균형 (load imbalance)과 GPU 간 통신 (inter-GPU communication)의 결합된 효과를 고려하지 않은 채, 메모리 대역폭 제한 (memory-bound) 연산을 PIM으로 오프로드하기 위해 정적 규칙에 의존합니다. 한편, 현대의 MoE 모델은 점점 더 많아지는 전문가 중 더 적은 수의 전문가를 활성화하며, 이로 인해 양봉형 전문가 분포 (bimodal expert distribution)가 생성됩니다. 즉, 소수의 전문가 세트는 많은 토큰을 받는 반면, 긴 꼬리 (long tail) 형태의 전문가들은 단 하나 또는 몇 개의 토큰만을 받게 됩니다. 우리는 현대 MoE 모델에서 토큰-대-전문가 분포가 점점 더 양봉형으로 변하는 추세를 확인하였고, 이로 인해 발생하는 전문가 간 산술 강도 (arithmetic intensity)의 격차를 정량화하였으며, 이러한 격차가 LLM을 위한 최첨단 PIM 시스템의 효율성을 급격히 저하시킨다는 것을 보여줍니다. 이 문제를 해결하기 위해, 우리는 HBM-PIM 스택이 부착된 멀티 GPU 시스템에서 MoE 모델을 서비스하기 위한 스케줄러를 제안합니다. 우리의 스케줄러는 상호 연결 오버헤드 (interconnect overhead), 메모리 대역폭 (memory bandwidth), GPU 처리량 (throughput), 그리고 PIM 처리량을 공동으로 고려하면서, 런타임 토큰-대-전문가 분포에 따라 GPU와 PIM 사이에서 전문가 실행을 분할합니다. 또한, 우리는 스케줄러를 사용하여 GPU와 그에 부착된 HBM-PIM 스택 간의 실행을 조정하는 런타임 프레임워크인 Sieve를 제안합니다. Sieve는 전문가 병렬성 (expert parallelism)으로 인해 발생하는 장치 간 의존성을 유지하면서 GPU 연산, PIM 연산, 그리고 장치 내부 및 장치 간 통신을 중첩 (overlap) 시킵니다. Sieve는 Ramulator 2.0을 기반으로 한 우리의 사이클 단위 정밀 시뮬레이터 (cycle-accurate simulator)를 통해 평가되었습니다. MoE를 위한 최첨단 PIM 시스템과 비교했을 때, Sieve는 Qwen3.5-397B-A17B, GPT-OSS-120B, 그리고 Qwen3-30B-A3B에서 각각 처리량과 상호작용성 (interactivity)을 1.3배, 1.3배, 1.6배 향상시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sieve: 진화하는 Mixture-of-Experts 모델을 위한 동적 전문가 인식 PIM 가속 기술

요약

핵심 포인트

댓글