arXiv논문2026. 05. 07. 12:55

Piper: 리소스 모델링과 파이프라인 하이브리드 병렬화를 통한 효율적인 대규모 MoE 훈련

요약

본 기술 기사는 MoE(Mixture-of-Experts) 모델을 HPC 환경에서 효율적으로 훈련시키는 데 발생하는 메모리, 통신, 작업 불균형 등의 문제를 다룹니다. 이를 해결하기 위해 'Piper'라는 프레임워크를 제안합니다. Piper는 리소스 모델링을 활용하여 목표 플랫폼에 최적화된 훈련 전략을 식별하고, 파이프라인 병렬화를 적용함으로써 기존 대비 월등히 높은 MFU(Model Flops Utilization)와 대역폭 향상을 달성하는 것을 목표로 합니다.

핵심 포인트

MoE 모델 훈련의 주요 난제: 큰 메모리 발자국, 이종 네트워크 통신 오버헤드, 작업 불균형 등
문제 해결을 위해 MoE 구성의 리소스 요구 사항을 정량화하는 수학적 모델 개발 및 검증.
Piper 프레임워크는 리소스 모델링 기반으로 최적의 훈련 전략과 파이프라인 병렬화를 제공하여 효율성을 극대화함.
기존 대비 2-3.5배 높은 MFU와 새로운 all-to-all 알고리즘을 통한 대역폭 향상(1.2-9배)을 입증함.

경계선 모델들은 비용 절감으로 대규모 모델 성능을 달성하기 위해 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처를 점점 더 많이 채택하고 있습니다. 그러나 HPC 플랫폼에서 MoE 모델을 훈련시키는 것은 큰 메모리 발자국, 이종 네트워크 간의 빈번한 대규모 통신, 그리고 심각한 작업 불균형에 의해 방해받습니다. 이러한 과제를 규격화하기 위해, 우리는 다양한 병렬화 스키마 아래 MoE 구성의 메모리, 컴퓨팅, 통신 요구 사항을 정량화하는 수학적 모델을 개발했습니다. 이는 마이크로 벤치마킹, 코드 인스트루멘테이션, 하드웨어 프로파일링을 통해 검증되었습니다. 우리의 분석은 성능 병목 현상을 식별했습니다: 전문가 병렬화의 규모에서 모든-모든 (all-to-all) 지연 시간, 컴퓨팅-통신 중첩의 부족, 불균형한 얇은 GEMM 에서 낮은 GPU 활용도, 그리고 플랫폼 인식 하이브리드 병렬화 전략의 부재입니다. 이를 해결하기 위해, 우리는 Piper 라는 프레임워크를 소개했습니다. Piper 는 리소스 모델링을 활용하여 목표 HPC 플랫폼에서 MoE 모델을 위한 효율적인 훈련 전략을 식별하고 최적화된 스케줄과 함께 파이프라인 병렬화를 적용합니다. Piper 는 X-MoE 와 같은 최첨단 프레임워크보다 2-3.5 배 높은 MFU 를 달성하며, 새로운 모든-모든 (all-to-all) 알고리즘은 벤더 구현 대비 1.2-9 배의 대역폭을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Piper: 리소스 모델링과 파이프라인 하이브리드 병렬화를 통한 효율적인 대규모 MoE 훈련

요약

핵심 포인트

댓글