LibMoE: 재현 가능하고 효율적이며 확장 가능한 MoE 연구를 위한 통합 프레임워크

요약

LibMoE는 MoE(Mixture of Experts) 연구의 높은 비용과 복잡성을 해결하기 위해 설계된 통합 프레임워크입니다. 사전 훈련과 희소 업사이클링을 모두 지원하며, 라우팅 역학 및 전문가 활용도에 대한 투명한 분석 도구를 제공합니다.

핵심 포인트

MoE 연구를 위한 재현 가능하고 확장 가능한 통합 프레임워크 제공
라우팅 안정성, 전문가 선택 패턴 등 심층적인 분석 도구 포함
사전 훈련 및 희소 업사이클링 체제 모두 지원
훈련 시간 단축 및 다양한 MoE 진단 지표 제공

저자: Nam V. Nguyen*, Thong T. Doan*, Luong Tran, Van Nguyen, Quang Pham

전문가 혼합 (Mixture of Experts, MoE) 아키텍처는 규모를 확장하는 데 있어 초석이 되었으며, GPT-OSS, DeepSeek-V3, Llama-4, Gemini-2.5와 같은 대부분의 대규모 언어 모델 (Large Language Models, LLM)의 핵심 구성 요소입니다. 그러나 MoE에 대한 체계적인 연구는 훈련 및 평가에 드는 막대한 계산 비용으로 인해 심각하게 제한되어 있으며, 이로 인해 대부분의 연구자가 대규모 연구를 수행하는 데 어려움을 겪고 있습니다. 우리는 사전 훈련 (Pretraining) 및 희소 업사이클링 (Sparse-upcycling) 체제를 모두 지원하며, 재현 가능하고 효율적이며 확장 가능한 MoE 연구를 위한 통합 프레임워크인 LibMoE를 소개합니다. 통합된 구현을 넘어, 이 프레임워크는 라우팅 (Routing) 및 전문가 역학 (Expert dynamics)을 조사하기 위한 투명한 분석 도구를 제공합니다. 이러한 기반을 활용하여 우리는 세 가지 차원에서 종합적인 분석을 수행합니다: (i) 전문가 선택 패턴, 라우팅 안정성 및 최적성, 그리고 라우팅 엔트로피 (Routing entropy)가 작업 특화 및 전문가 다양성을 어떻게 드러내는지 다루는 라우팅 역학; (ii) 로드 밸런싱 (Load balancing)에 미치는 경량 초기화 (Lightweight initialization)의 효과, 즉 라우터 초기화의 미세한 변화가 초기 전문가 활용도를 어떻게 형성하는지 입증; (iii) 훈련 체제의 차이, 즉 희소 업사이클링 (Sparse upcycling)과 전체 사전 훈련 (Full pretraining)이 어떻게 서로 다른 라우팅 패턴과 안정성 프로필을 보이는지 밝힙니다. 진입 장벽을 낮추고 평가를 표준화함과 동시에, 우리의 종합적인 분석을 통해 LibMoE는 MoE 연구에 대한 접근성을 넓히고 미래의 혁신을 안내할 신뢰할 수 있는 벤치마크를 구축합니다.

LibMoE는 롤링 릴리스 (Rolling release) 로그를 따르며, 최신 마일스톤이 가장 먼저 나열됩니다.

날짜	릴리스 (Release)	주요 사항 (Highlights)
2026-05-26	🎉 LibMoE v2.0	TMLR 2026에 채택되었으며, 이는 LibMoE 프레임워크와 재현 가능하고 접근 가능한 MoE 연구에 대한 기여에 있어 중요한 이정표를 의미합니다.
2025-12-30	LibMoE v2.0	MoE 분석 도구, 손실 (loss) 추적, 그리고 언어 모델 (language-model) 사전 학습 (pretraining) 워크플로우에 대한 확장된 지원을 추가했습니다.
2024-12-30	LibMoE v1.1	훈련 시간을 약 30시간에서 약 9시간으로 약 70% 단축했습니다. 밸런싱 손실 (balancing loss), z-loss, 스텝당 훈련 시간 (per-step training time), FLOPs, 언어 손실 (language loss), 총 손실 (total loss), 보조 손실 (auxiliary loss) 및 사용자 정의 가능한 지표 (customizable metrics)를 포함한 더욱 풍부한 MoE 진단 기능을 추가했습니다. 성능 향상을 위해 `balance_loss_coef` 및 `router_z_loss_coef`를 업데이트했습니다. 자세한 내용.
2024-11-04	MoE 지표 분석 (MoE metric analysis)	LibMoE 논문과 일치하는 MoE 알고리즘용 지표 분석 유틸리티를 도입했습니다.
2024-11-01	LibMoE v1.0 프리프린트 (preprint)	LibMoE 프리프린트, 프로젝트 웹페이지 및 공개 체크포인트 (public checkpoints)를 출시했습니다. 논문 · 웹페이지

git clone https://github.com/Fsoft-AIC/LibMoE.git
cd LibMoE

venv

python -m venv .venv source .venv/bin/activate

conda

conda create -n libmoe python=3.9 -y conda activate libmoe

pip install --upgrade pip
pip install -e .
pip install -e .[vlm,lm,eval] # 또는: pip install -r requirements.txt

더 가벼운 환경이 필요하신가요? pip install -e .로 시작하세요.

그 다음 아래 항목들을 추가할 수 있습니다:

시각-언어 스택 (Vision-language stack):
pip install -e .[vlm,eval]
언어 모델 사전 학습 (Language-model pretraining):
pip install -e .[lm]
평가 유틸리티 전용 (Evaluation utilities only):
pip install -e .[eval]

필요한 모든 라이브러리를 설치한 후, 아래의 구성 요소별 가이드를 따르세요:

🖼️ 시각-언어 스택 (Vision-Language Stack) — 희소 업사이클링 (Sparse Upcycling)

LibMoE는 기존의 VLM 백본 (SigLIP/CLIP × Phi)을 처음부터 학습하지 않고도 MoE 강화 아키텍처로 변환하는 간소화된 **희소 업사이클링 파이프라인 (sparse-upcycling pipeline)**을 제공합니다. 이 파이프라인은 사전 학습 (pre-training), 사전 미세 조정 (pre-fine-tuning), 그리고 시각적 지시어 튜닝 (visual instruction tuning)을 지원합니다.

🧠 언어 모델링 스택 (Language Modeling Stack) — 처음부터 시작하는 MoE 사전 학습 (MoE Pretraining from Scratch)

언어 모델링 스택 (Language Modeling Stack)은 모듈형 Transformer 설계, 유연한 라우팅 전략 (routing strategies), 그리고 포괄적인 희소 LLM (sparse LLM) 연구를 위한 다양한 MoE 변체 (variants)를 특징으로 하는 **처음부터 시작하는 엔드투엔드(end-to-end) MoE 사전 학습 (pretraining)**에 집중합니다.

LibMoEv2/
├── docs/
│ ├── pretrain_llm/
...

만약 이 저장소(repository)가 귀하의 연구에 도움이 되었다면, 다음을 인용해 주세요:

@misc{nguyen2025libmoelibrarycomprehensivebenchmarking,
title={LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models},
author={Nam V. Nguyen and Thong T. Doan and Luong Tran and Van Nguyen and Quang Pham},
...

AI 자동 생성 콘텐츠

원문 바로가기

LibMoE: 재현 가능하고 효율적이며 확장 가능한 MoE 연구를 위한 통합 프레임워크

요약

핵심 포인트

댓글