FoMoE: MoE 연합을 통한 풀-레플리카(Full-Replica) 장벽 돌파
요약
FoMoE는 MoE 아키텍처 학습 시 모든 사이트에 모델 전체 복제본이 필요했던 기존 방식의 메모리 및 통신 한계를 극복하는 연구입니다. 전문가 레이어를 워커 간에 분할하여 통신 비용을 획기적으로 줄이고 처리량을 향상시킵니다.
핵심 포인트
- 전문가 레이어 분할을 통해 풀-레플리카(Full-Replica) 방식의 메모리 제약 해결
- 기존 DDP 대비 통신 비용을 최대 45.44배 절감
- 스킵-토큰(skip-token) 메커니즘을 통해 처리량 최대 1.4배 향상
- 100B 규모의 대규모 모델에서도 통신 및 메모리 효율성 입증
대규모 언어 모델 (LLMs)의 사전 학습 (Pre-training)은 일반적으로 긴밀하게 결합된 하드웨어 가속기를 갖춘 대규모 인프라를 요구합니다. 모델과 데이터셋의 규모를 키우는 것이 성능 향상의 주요 동력으로 남아 있는 가운데, 최근 Mixture-of-Experts (MoEs) 아키텍처는 파라미터 수와 연산 비용을 분리함으로써 최첨단(state-of-the-art) 결과를 달성했습니다. 이러한 효율성은 제한된 컴퓨팅 예산 내에서 거대 모델을 학습할 수 있게 해주지만, 일반적으로 단일 데이터 센터의 고속 상호 연결 (interconnects)을 필요로 합니다. 이러한 물리적 한계를 극복하기 위해 DiLoCo 및 Photon과 같은 최근의 접근 방식들은 통신량이 적은 데이터 병렬 (data-parallel) 방식을 사용하여 지리적으로 분산되고 약하게 연결된 데이터 센터 간의 확장을 가능하게 합니다. 그러나 이러한 방식들은 근본적인 비효율성을 겪고 있습니다. 즉, 모든 사이트에 모델의 전체 복제본 (full model replicas)이 필요하며, 이는 과도한 메모리 제약과 통신 오버헤드를 초래합니다. 본 연구에서는 전문가 레이어 (expert layers)를 워커 (workers) 간에 분할함으로써 풀-레플리카 패러다임을 깨뜨리는 시스템인 FoMoE를 소개합니다. 우리는 FoMoE가: (I) 연구된 환경에서 부분적 전문가 복제 (partial expert replication)를 통해 효율적인 베이스라인 대비 최대 1.42배, DDP 대비 45.44배 통신 비용을 절감하고; (II) 새로운 스킵-토큰 (skip-token) 메커니즘을 통해 실험적으로 최대 1.4배의 처리량 (throughput) 속도 향상을 달성하며; (III) 학습된 프록시 환경에서 안정적인 라우팅 (routing)을 보여주고 시스템 모델링을 통해 100B 규모의 구성에서도 통신 및 메모리 이점이 있음을 투영함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기