transformers 에서 EP 를 활용한 매우 빠른 MoE 학습을 지원하기 위한 진행 중인 작업

요약

transformers 라이브러리는 Expert Parallelism(EP)을 활용하여 Mixture of Experts(MoE) 모델의 학습 속도를 획기적으로 높이는 작업을 진행하고 있습니다. 이 과정에서 PyTorch의 `torch._grouped_mm`와 같은 효율적인 구현 방식이 발견되었으며, 이는 여러 전문가에게 분산된 행렬 곱셈을 단일 호출로 처리할 수 있게 합니다.

핵심 포인트

transformers 라이브러리가 EP(Expert Parallelism)를 통해 MoE 학습 가속화를 목표로 개발 중이다.
MoE 구현의 핵심은 라우팅 메커니즘과 여러 전문가에게 분산된 행렬 곱셈을 효율적으로 처리하는 것이다.
PyTorch의 `torch._grouped_mm`는 하나의 호출로 다수의 전문가(expert)에 대한 행렬 곱셈을 수행하는 현대적인 MoE 구현 방식이다.

transformers 라이브러리에는 EP(Expert Parallelism)를 활용하여 매우 빠른 MoE(Mixture of Experts) 학습을 지원하기 위한 작업이 진행 중입니다.
trl 을 위한 EP 벤치마킹 과정에서 공유할 가치가 있는 흥미로운 PyTorch 퍼즐이 발견되었습니다!

torch._grouped_mm 는 PyTorch 에서의 현대적인 MoE 구현 방식입니다. 하나의 호출로 각 전문가 (expert) 당 하나씩 E 개의 행렬 곱셈을 수행합니다.
라우팅 (Routing) 은 어떤 행들이 어디로 가야 하는지 결정합니다.

AI 자동 생성 콘텐츠

원문 바로가기

transformers 에서 EP 를 활용한 매우 빠른 MoE 학습을 지원하기 위한 진행 중인 작업

요약

핵심 포인트

댓글