withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs
요약
대규모 언어 모델(LLM) 내 Mixture-of-Experts(MoE) 기술에 관한 최신 논문과 리소스를 정리한 서베이 논문입니다. MoE 모델의 발전 연대기와 오픈 소스 및 독점 모델의 구분, 도메인별 분류를 포함합니다.
핵심 포인트
- LLM 내 MoE 기술에 관한 포괄적인 서베이 제공
- MoE 모델의 발전 과정을 보여주는 연대기적 개요 포함
- NLP, 비전, 멀티모달, 추천 시스템 등 도메인별 MoE 분류
- TKDE에 채택된 검증된 연구 결과물

최근 몇 년간의 여러 대표적인 Mixture-of-Experts (MoE) 모델에 대한 연대기적 개요입니다. 타임라인은 주로 모델의 출시 날짜에 따라 구성되었습니다. 화살표 위에 위치한 MoE 모델은 오픈 소스(open-source)이며, 화살표 아래에 있는 모델은 독점적(proprietary)이고 폐쇄 소스(closed-source)입니다. 다양한 도메인의 MoE 모델은 서로 다른 색상으로 표시됩니다: 자연어 처리 (NLP) 는 녹색, 컴퓨터 비전 (Computer Vision) 은 노란색, 멀티모달 (Multimodal) 은 분홍색, 그리고 추천 시스템 (RecSys) 은 청록색입니다.

이전 버전: 2025년 1월.
중요
좋은 소식입니다! 🎉 저희의 서베이 논문이 TKDE에 성공적으로 채택되었습니다. 🔥🔥🔥
대규모 언어 모델 (Large Language Models) 내의 Mixture of Experts에 관한 논문 및 리소스의 큐레이션된 모음입니다.
상세한 내용은 저희의 서베이 **"A Survey on Mixture of Experts in Large Language Models"**를 참조해 주세요.
실수를 발견하거나 제안 사항이 있으시면 다음 이메일로 알려주세요: wcai738@connect.hkust-gz.edu.cn
Less is MoE: Trimming Experts in Domain-Specialist Language Models, [ArXiv 2026], 2026-6-4
LoopMoE: Unifying Iterative Computation with Mixture-of-Experts for Language Modeling, [ArXiv 2026], 2026-6-3
UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing, [ArXiv 2026], 2026-6-2
PRISM: Synergizing Vision Foundation Models via Self-organized Expert Specialization, [ICML 2026], 2026-6-2
DOT-MoE: Differentiable Optimal Transport for MoEfication, [ICML 2026], 2026-6-1
DAG-MoE: From Simple Mixture to Structural Aggregation in Mixture-of-Experts, [ICML 2026], 2026-5-31
MESA: Improving MoE Safety Alignment via Decentralized Expertise, [ICML 2026], 2026-5-30
How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving, [ArXiv 2026], 2026-5-27
VidPrism: Heterogeneous Mixture of Experts for Image-to-Video Transfer, [CVPR 2026], 2026-5-27
ReMoE: 메모리 제약이 있는 MoE LLM 추론에서 라우터 미세 조정 (Router Fine-Tuning)을 통한 전문가 재사용 (Expert Reuse) 증대, [ArXiv 2026], 2026-5-26
MiniMax-M2 시리즈: 최소한의 활성화 (Mini Activations)로 최대의 실세계 지능을 해방하다, [ArXiv 2026], 2026-5-26
GEMQ: MoE LLM을 위한 전역 전문가 수준 혼합 정밀도 양자화 (Global Expert-Level Mixed-Precision Quantization), [ICML 2026], 2026-5-21
DBES: 대규모 MoE의 전문가 전문화 (Expert Specialization) 평가를 위한 체계적인 벤치마크 및 메트릭 스위트, [ArXiv 2026], 2026-5-18
ROMER: 아날로그 컴퓨팅 인 메모리 (Compute-in-Memory) 시스템에서 견고한 MoE LLM을 위한 전문가 교체 및 라우터 교정 (Expert Replacement and Router Calibration), [ArXiv 2026], 2026-5-12
MoE-Hub: 멀티 GPU 시스템에서 하드웨어 가속 통신과 원활한 MoE 중첩 (Overlap)을 위한 소프트웨어 복잡성 제어, [ISCA 2026], 2026-5-7
멀티 GPU에서의 동적 인-스위치 컴퓨팅 (Dynamic In-Switch Computing)을 통한 MoE 가속화, [ISCA 2026], 2026-5-7
GEM: 대화 상태 추적 (Dialogue State Tracking)을 위한 ReAct 에이전트를 결합한 그래프 강화 전문가 혼합 (Graph-Enhanced Mixture-of-Experts), [AAAI 2026], 2026-5-6
SMoES: MoE-VLM에서의 소프트 모달리티 가이드 전문가 전문화 (Soft Modality-Guided Expert Specialization), [CVPR 2026], 2026-4-27
UniEP: LLM 학습을 위한 통합 전문가 병렬 MoE 메가커널 (Unified Expert-Parallel MoE MegaKernel), [ArXiv 2026], 2026-4-21
CNN 기반 시맨틱 세그멘테이션 (Semantic Segmentation)에서 희소 전문가 혼합 (Sparse Mixture-of-Experts) 레이어의 설계 및 동작, [CVPR 2026], 2026-4-15
클러스터 인식 업사이클링 (Cluster-Aware Upcycling)을 통한 전문가 혼합 전문화 강화, [CVPR 2026], 2026-4-15
WaveMoE: 시계열 예측을 위한 웨이브릿 강화 전문가 혼합 (Wavelet-Enhanced Mixture-of-Experts) 파운데이션 모델, [ICLR 2026], 2026-4-12
MoE 기반 LLM에 도메인 특화 전문가 (Domain-specific Experts)가 존재하는가?, [ArXiv 2026], 2026-4-7
전문가의 반격: 전문가 수준에서 전문가 혼합 언어 모델 해석하기, [ICML 2026], 2026-4-2
토큰의 딜레마에 대하여: 대규모 시각 언어 모델 (Large Vision Language Models)의 지속 학습을 위한 드리프트 인식 토큰 할당 (Drift-Aware Token Assignment) 기반 동적 MoE, [CVPR 2026], 2026-3-29
MoE-GRPO: 시각-언어 모델에서의 강화 학습을 통한 전문가 혼합 최적화, [CVPR 2026], 2026-3-26
최적의 전문가 혼합 (Mixture-of-Experts) 아키텍처 최적화를 위한 통합 스케일링 법칙 (Holistic Scaling Laws), [ArXiv 2026], 2026-3-23
변분 라우팅 (Variational Routing): 보정된 전문가 혼합 트랜스포머 (Mixture-of-Experts Transformers)를 위한 확장 가능한 베이지안 프레임워크, [ICML 2026], 2026-3-10
Megatron Core를 이용한 전문가 혼합 (Mixture-of-Experts) 모델의 확장 가능한 학습, [ArXiv 2026], 2026-3-8
MoE Lens -- 전문가가 전부다 (An Expert Is All You Need), [ICLR 2025], 2026-3-6
RANGER: 병리 보고서 생성을 위한 적응형 검색 재순위화 (Adaptive Retrieval Re-ranking) 기반 희소 게이팅 전문가 혼합 (Sparsely-Gated Mixture-of-Experts), [CVPR 2026], 2026-3-4
LAER-MoE: 효율적인 전문가 혼합 (Mixture-of-Experts) 학습을 위한 부하 적응형 전문가 재배치 (Load-Adaptive Expert Re-layout), [ASPLOS 2026], 2026-2-12
MoE 기반 언어 모델을 위한 전문가 발산 학습 (Expert Divergence Learning), [ICLR 2026], 2026-2-10
희소 모델, 희소 안전성: 전문가 혼합 (Mixture-of-Experts) LLM에서의 불안전한 경로, [ArXiv 2026], 2026-2-9
MixServe: 융합 통신 알고리즘 기반의 하이브리드 병렬성을 갖춘 MoE 모델용 자동 분산 서빙 시스템, [ArXiv 2026], 2026-1-13
분리된 전문가 병렬성 (Disaggregated Expert Parallelism)의 미세 스케줄링을 통한 효율적인 MoE 추론, [ArXiv 2025], 2025-12-25
대규모 AI 모델에서 희소 전문가 혼합 (Sparse Mixture-of-Experts)의 보조 손실 없는 (Auxiliary-Loss-Free) 부하 분산을 위한 이론적 프레임워크, [ArXiv 2025], 2025-12-3
MLPMoE: 밀집 LLM MLP에서 정적 전문가 혼합 (Static Mixture-of-Experts)으로의 제로샷 아키텍처 변형, [ArXiv 2025], 2025-11-26
라우팅 매니폴드 정렬 (Routing Manifold Alignment)을 통한 전문가 혼합 (Mixture-of-Experts) LLM의 일반화 성능 향상, [ArXiv 2025], 2025-11-10
디리클레 사전 확률 형성 (Dirichlet-Prior Shaping): 업사이클링된 MoE에서의 전문가 전문화 유도, [ArXiv 2025], 2025-10-1
전문가 혼합 (Mixture-of-Experts)의 포괄적인 스케일링 법칙을 향하여, [ArXiv 2025], 2025-9-28
안전 라우팅 정렬 (Safety Routing Alignment을 통한 유해한 미세 조정으로부터 MoE LLM 방어하기, [ArXiv 2025], 2025-9-26
생각의 혼합 (Mixture of Thoughts): 전문가가 말하는 것뿐만 아니라 생각하는 것을 집계하는 법 배우기, [ArXiv 2025], 2025-9-25
전문가 제거, 뉴런 재결합: 희소 전문가 혼합 (Sparse Mixture-of-Experts) LLM을 위한 재학습 없는 가지치기 (Pruning), [ArXiv 2025], 2025-9-12
Expert (De)Activation을 통한 MoE LLM 조종 (Steering), [ArXiv 2025], 2025-9-11
MiniMax-M1: Lightning Attention을 통한 효율적인 테스트 시간 연산 (Test-Time Compute) 스케일링, [ArXiv 2025], 2025-6-16
Huawei CloudMatrix384에서의 대규모 언어 모델 (LLM) 서빙, [ArXiv 2025], 2025-6-15
Ming-Omni: 인지 및 생성을 위한 통합 멀티모달 모델 (Unified Multimodal Model), [ArXiv 2025], 2025-6-11
DIVE into MoE: Dense 모델에서 Mixture-of-Experts로의 다양성 강화 재구성 (Diversity-Enhanced Reconstruction), [ACL 2025], 2025-6-11
MoQAE: 양자화 인식 전문가 (Mixture of Quantization-Aware Experts)를 통한 긴 문맥 LLM 추론용 혼합 정밀도 양자화 (Mixed-Precision Quantization), [ACL 2025], 2025-6-9
HELM: 곡률 혼합 전문가 (Mixture-of-Curvature Experts)를 통한 쌍곡선 대규모 언어 모델 (Hyperbolic Large Language Models), [ArXiv 2025], 2025-5-30
MegaScale-MoE: 실제 운영 환경에서의 Mixture-of-Experts 모델의 대규모 통신 효율적 학습, [ArXiv 2025], 2025-5-16
Seed1.5-VL 기술 보고서 (Technical Report), [ArXiv 2025], 2025-5-11
MxMoE: 정확도와 성능의 공동 설계 (Co-Design)를 통한 MoE용 혼합 정밀도 양자화 (Mixed-precision Quantization), [ICML 2025], 2025-5-9
Pangu Ultra MoE: Ascend NPU에서 대규모 MoE를 학습하는 방법, [ArXiv 2025], 2025-5-7
MoE Parallel Folding: Megatron Core를 이용한 효율적인 대규모 MoE 모델 학습을 위한 이기종 병렬 매핑 (Heterogeneous Parallelism Mappings), [ArXiv 2025], 2025-4-21
MegaScale-Infer: 분리된 전문가 병렬성 (Disaggregated Expert Parallelism)을 통한 대규모 Mixture-of-Experts 서빙, [ArXiv 2025], 2025-4-3
MoLe-VLA: 효율적인 로봇 조작을 위한 레이어 혼합 (Mixture-of-Layers) 기반의 동적 레이어 스킵 비전 언어 행동 모델 (Vision Language Action Model), [AAAI 2025], 2025-3-26
모든 샘플은 중요하다: 효율적이고 정확한 코드 LLM을 위한 Mixture-of-Experts 및 고품질 데이터 활용, [ArXiv 2025], 2025-3-22
용량 인식 추론 (Capacity-Aware Inference): Mixture of Experts에서의 느린 작업자 효과 (Straggler Effect) 완화, [ICLR 2026], 2025-3-7
모든 FLOP은 중요하다: 프리미엄 GPU 없이 300B Mixture-of-Experts LING LLM 스케일링, [ArXiv 2025], 2025-3-7
NetMoE: 동적 샘플 배치 (Dynamic Sample Placement)를 통한 MoE 학습 가속화, [ICLR 2025], 2025-2-28
Comet: Mixture-of-Experts를 위한 세밀한 연산-통신 중첩 (Fine-grained Computation-communication Overlapping), [ArXiv 2025], 2025-2-27
Drop-Upcycling: 부분 재초기화 (Partial Re-initialization)를 통한 희소 Mixture of Experts 학습, [ICLR 2025], 2025-2-26
Unraveling the Localized Latents: Sparse Mixture-of-Experts를 이용한 LLM 임베딩 공간에서의 계층적 매니폴드 구조 (Stratified Manifold Structures) 학습, [ArXiv 2025], 2025-2-19
Joint MoE Scaling Laws: Mixture of Experts는 메모리 효율적일 수 있다, [ArXiv 2025], 2025-2-7
Parameters vs FLOPs: Mixture-of-Experts 언어 모델을 위한 최적 희소성 (Optimal Sparsity) 스케일링 법칙 (Scaling Laws), [ArXiv 2025], 2025-1-21
Demons in the Detail: 전문화된 Mixture-of-Expert 모델 학습을 위한 부하 분산 손실 (Load Balancing Loss) 구현에 관하여, [ArXiv 2025], 2025-1-21
DeepSeek-V3 기술 보고서 (Technical Report), [ArXiv 2024], 2024-12-27
Qwen2.5 기술 보고서 (Technical Report), [ArXiv 2024], 2024-12-19
Mixture of Experts 모델을 위한 추론 최적화 기술에 관한 조사 (A Survey on Inference Optimization Techniques for Mixture of Experts Models), [ArXiv 2024], 2024-12-18
LLaMA-MoE v2: 사후 학습 (Post-Training) 관점에서의 Mixture-of-Experts를 통한 LLaMA의 희소성 탐색, [ArXiv 2024], 2024-11-24
MoE-Lightning: 메모리 제한이 있는 GPU에서의 고처리량 (High-Throughput) MoE 추론, [ASPLOS 2025], 2024-11-18
Hunyuan-Large: Tencent의 520억 개의 활성화 파라미터(Activated Parameters)를 가진 오픈 소스 MoE 모델, [ArXiv 2024], 2024-11-4
MoE-I2: 전문가 간 가지치기 (Inter-Expert Pruning) 및 전문가 내 저계수 분해 (Intra-Expert Low-Rank Decomposition)를 통한 Mixture of Experts 모델 압축, [EMNLP (Findings) 2024], 2024-11-1
MoH: Mixture-of-Head Attention으로서의 Multi-Head Attention, [ArXiv 2024], 2024-10-15
대규모 언어 모델을 Mixture of Experts로 업사이클링 (Upcycling Large Language Models into Mixture of Experts), [ArXiv 2024], 2024-10-10
GRIN: 기울기 정보 기반 MoE (GRadient-INformed MoE), [ArXiv 2024], 2024-9-18
OLMoE: 오픈 Mixture-of-Experts 언어 모델, [ArXiv 2024], 2024-9-3
Duplex: Mixture of Experts, Grouped Query Attention, 그리고 연속 배치 (Continuous Batching)를 갖춘 대규모 언어 모델용 장치, [MICRO 2024], 2024-9-2
백만 명의 전문가 혼합 (Mixture of A Million Experts), [ArXiv 2024], 2024-7-4
희소 전문가 혼합 (Sparse Mixture-of-Experts) 언어 모델을 위한 효율적인 전문가 프루닝 (Expert Pruning): 성능 향상 및 추론 비용 절감, [ArXiv 2024], 2024-7-1
Flextron: Many-in-One 유연한 대규모 언어 모델 (Large Language Model), [ICML 2024], 2024-6-11
통합 프레임워크를 통한 전문가 혼합 (Mixture-of-Experts) 압축의 신비 해제, [ArXiv 2024], 2024-6-4
Skywork-MoE: 전문가 혼합 (Mixture-of-Experts) 언어 모델의 학습 기술에 대한 심층 연구, [ArXiv 2024], 2024-6-3
MoNDE: 대규모 희소 모델을 위한 데이터 근접 전문가 혼합 (Mixture of Near-Data Experts), [DAC 2024], 2024-5-29
Yuan 2.0-M32: 어텐션 라우터 (Attention Router)를 이용한 전문가 혼합 (Mixture of Experts), [ArXiv 2024], 2024-5-28
MoGU: 오픈 소스 LLM의 사용성을 유지하면서 안전성을 강화하기 위한 프레임워크, [ArXiv 2024], 2024-5-23
동적 전문가 혼합 (Dynamic Mixture of Experts): 효율적인 Transformer 모델을 위한 자동 튜닝 접근 방식, [ArXiv 2024], 2024-5-23
선택되지 않은 전문가도 기여할 수 있다: 자기 대조 (Self-Contrast)를 통한 MoE 모델의 잠재력 해방, [ArXiv 2024], 2024-5-23
MeteoRA: 대규모 언어 모델을 위한 다중 작업 임베디드 LoRA (Multiple-tasks Embedded LoRA), [ArXiv 2024], 2024-5-19
Uni-MoE: 전문가 혼합 (Mixture of Experts)을 통한 통합 멀티모달 LLM 스케일링, [ArXiv 2024], 2024-5-18
M4oE: 전문가 혼합 (Mixture of Experts)을 이용한 의료 멀티모달 이미지 분할 (Medical Multimodal Image Segmentation)을 위한 파운데이션 모델, [MICCAI 2024], 2024-05-15
DeepSeek-V2: 강력하고 경제적이며 효율적인 전문가 혼합 (Mixture-of-Experts) 언어 모델, [ArXiv 2024], 2024-5-7
Lory: 자기회귀 언어 모델 (Autoregressive Language Model) 사전 학습을 위한 완전 미분 가능한 전문가 혼합 (Fully Differentiable Mixture-of-Experts), [ArXiv 2024], 2024-5-6
Lancet: 전체 그래프 계산-통신 중첩 (Whole Graph Computation-Communication Overlapping)을 통한 전문가 혼합 (Mixture-of-Experts) 학습 가속화, [ArXiv 2024], 2024-4-30
M3oE: 다중 도메인 다중 작업 전문가 혼합 (Multi-Domain Multi-Task Mixture-of Experts) 추천 프레임워크, [SIGIR 2024], 2024-4-29
멀티 헤드 전문가 혼합 (Multi-Head Mixture-of-Experts), [ArXiv 2024], 2024-4-23
Phi-3 기술 보고서: 당신의 휴대폰에서 로컬로 실행되는 매우 유능한 언어 모델, [ArXiv 2024], 2024-4-22
ScheMoE: 작업 스케줄링을 포함한 확장 가능한 Mixture-of-Experts 분산 학습 시스템 (An Extensible Mixture-of-Experts Distributed Training System with Tasks Scheduling), [EuroSys 2024], 2024-4-22
MixLoRA: LoRA 기반 Mixture of Experts를 통한 대규모 언어 모델 (Large Language Models) 미세 조정 (Fine-Tuning) 강화 (Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts), [ArXiv 2024], 2024-4-22
매개변수 효율적 미세 조정 (Parameter Efficient Finetuning)을 위한 직관 인지형 Mixture-of-Rank-1-Experts (Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning), [ArXiv 2024], 2024-4-13
JetMoE: 10만 달러로 Llama2 성능에 도달하기 (JetMoE: Reaching Llama2 Performance with 0.1M Dollars), [ArXiv 2024], 2024-4-11
밀집 학습, 희소 추론: Mixture-of-Experts 언어 모델의 학습 재고 (Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models), [ArXiv 2024], 2024-4-8
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기