arXiv논문2026. 05. 27. 12:01

MobileMoE: 온디바이스 Mixture of Experts의 확장

요약

MobileMoE는 온디바이스 환경에 최적화된 10억 개 미만 규모의 MoE 언어 모델 제품군을 제안합니다. 모바일의 메모리와 연산 제약을 고려한 스케일링 법칙을 통해 최적의 희소성을 식별하고, 기존 밀집 모델 대비 훨씬 적은 연산량으로 대등하거나 뛰어난 성능을 구현했습니다.

핵심 포인트

온디바이스 최적화된 0.3-0.9B 활성 파라미터 MoE 아키텍처 제안
메모리와 연산 효율을 동시에 잡는 '적절한 희소성' 스윗 스팟 식별
기존 밀집 모델 대비 추론 FLOPs 2-4배 절감 및 높은 성능 유지
실제 스마트폰 환경에서 MobileLLM-Pro 대비 최대 3.8배 빠른 성능 입증

Mixture-of-Experts (MoE)는 수천억 개의 파라미터를 가진 언어 모델의 사실상 표준(de facto) 아키텍처가 되었으나, 온디바이스(on-device) 배포를 위한 10억 개 미만(sub-billion) 규모에서의 이점은 여전히 거의 탐구되지 않은 상태입니다. 이 격차를 해소하기 위해, 우리는 온디바이스 LLM의 새로운 파레토 프런티어(Pareto frontier)를 구축하는, 10억 개 미만의 활성 파라미터(0.3-0.9B 활성 및 1.3-5.3B 전체)를 가진 온디바이스 MoE 언어 모델 제품군인 MobileMoE를 선보입니다. 우리는 먼저 모바일 메모리 및 연산 제약 조건 하에서 MoE 아키텍처를 공동 최적화하는 온디바이스 MoE 스케일링 법칙(scaling law)을 공식화하여, 메모리와 연산 측면에서 동시에 최적인 지점인 '세밀하고 공유된 전문가(fine-grained and shared experts)를 갖춘 적절한 희소성(moderate sparsity)'이라는 온디바이스 스윗 스팟(sweet spot)을 식별했습니다. 도출된 아키텍처를 기반으로, 우리는 사전 학습(pre-training), 중간 학습(mid-training), 지시어 미세 조정(instruction fine-tuning), 그리고 양자화 인식 학습(quantization-aware training)을 포함하는 4단계 레시피를 통해 모든 과정을 오픈 소스 데이터셋으로 MobileMoE를 학습시켰습니다. 14개의 벤치마크 전반에 걸쳐, MobileMoE는 2-4배 적은 추론 FLOPs로 선도적인 온디바이스 밀집(dense) LLM과 대등하거나 이를 능가하며, 최첨단(state-of-the-art) MoE인 OLMoE-1B-7B와 비교했을 때 최대 60% 더 적은 파라미터로 대등하거나 이를 능가합니다. 모바일 배포의 마지막 단계를 연결하기 위해, 우리는 포괄적인 온디바이스 프로파일링(on-device profiling)과 함께 일반 스마트폰에서의 첫 번째 효율적인 MoE 추론을 제공합니다. 유사한 INT4 가중치 메모리 환경에서, MobileMoE-S는 밀집 모델 베이스라인인 MobileLLM-Pro보다 1.8-3.8배 빠른 프리필(prefill)과 2.2-3.4배 빠른 디코드(decode) 성능을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MobileMoE: 온디바이스 Mixture of Experts의 확장

요약

핵심 포인트

댓글