본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:01

MobileMoE: 온디바이스 Mixture of Experts의 확장

요약

MobileMoE는 온디바이스 환경에 최적화된 10억 개 미만 규모의 MoE 언어 모델 제품군을 제안합니다. 모바일의 메모리와 연산 제약을 고려한 스케일링 법칙을 통해 최적의 희소성을 식별하고, 기존 밀집 모델 대비 훨씬 적은 연산량으로 대등하거나 뛰어난 성능을 구현했습니다.

핵심 포인트

  • 온디바이스 최적화된 0.3-0.9B 활성 파라미터 MoE 아키텍처 제안
  • 메모리와 연산 효율을 동시에 잡는 '적절한 희소성' 스윗 스팟 식별
  • 기존 밀집 모델 대비 추론 FLOPs 2-4배 절감 및 높은 성능 유지
  • 실제 스마트폰 환경에서 MobileLLM-Pro 대비 최대 3.8배 빠른 성능 입증

Mixture-of-Experts (MoE)는 수천억 개의 파라미터를 가진 언어 모델의 사실상 표준(de facto) 아키텍처가 되었으나, 온디바이스(on-device) 배포를 위한 10억 개 미만(sub-billion) 규모에서의 이점은 여전히 거의 탐구되지 않은 상태입니다. 이 격차를 해소하기 위해, 우리는 온디바이스 LLM의 새로운 파레토 프런티어(Pareto frontier)를 구축하는, 10억 개 미만의 활성 파라미터(0.3-0.9B 활성 및 1.3-5.3B 전체)를 가진 온디바이스 MoE 언어 모델 제품군인 MobileMoE를 선보입니다. 우리는 먼저 모바일 메모리 및 연산 제약 조건 하에서 MoE 아키텍처를 공동 최적화하는 온디바이스 MoE 스케일링 법칙(scaling law)을 공식화하여, 메모리와 연산 측면에서 동시에 최적인 지점인 '세밀하고 공유된 전문가(fine-grained and shared experts)를 갖춘 적절한 희소성(moderate sparsity)'이라는 온디바이스 스윗 스팟(sweet spot)을 식별했습니다. 도출된 아키텍처를 기반으로, 우리는 사전 학습(pre-training), 중간 학습(mid-training), 지시어 미세 조정(instruction fine-tuning), 그리고 양자화 인식 학습(quantization-aware training)을 포함하는 4단계 레시피를 통해 모든 과정을 오픈 소스 데이터셋으로 MobileMoE를 학습시켰습니다. 14개의 벤치마크 전반에 걸쳐, MobileMoE는 2-4배 적은 추론 FLOPs로 선도적인 온디바이스 밀집(dense) LLM과 대등하거나 이를 능가하며, 최첨단(state-of-the-art) MoE인 OLMoE-1B-7B와 비교했을 때 최대 60% 더 적은 파라미터로 대등하거나 이를 능가합니다. 모바일 배포의 마지막 단계를 연결하기 위해, 우리는 포괄적인 온디바이스 프로파일링(on-device profiling)과 함께 일반 스마트폰에서의 첫 번째 효율적인 MoE 추론을 제공합니다. 유사한 INT4 가중치 메모리 환경에서, MobileMoE-S는 밀집 모델 베이스라인인 MobileLLM-Pro보다 1.8-3.8배 빠른 프리필(prefill)과 2.2-3.4배 빠른 디코드(decode) 성능을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0