GitHub요약2026. 06. 21. 09:49

ModelTC/MoDES

요약

MoDES는 MoE MLLM의 추론 효율성을 높이기 위해 전문가를 적응적으로 건너뛰는 최초의 training-free 프레임워크입니다. 성능 저하를 최소화하면서도 계산량을 줄여 추론 속도를 크게 향상시킵니다.

핵심 포인트

훈련이 필요 없는(training-free) 전문가 건너뛰기 프레임워크
Qwen3-VL-MoE 기준 전문가 88% 건너뛰어도 성능 10.67% 향상
프리필링 2.16배, 디코딩 1.26배의 추론 속도 개선
CVPR 2026 채택 및 공식 구현체 공개

[ 컨퍼런스 논문 (Conference Paper) ]

Yushi Huang, Zining Wang, Zhihang Yuan📧, Ruihao Gong, Yifu Ding, Jinyang Guo, Xianglong Liu, Jun Zhang📧

(📧는 교신 저자를 나타냅니다.)

이곳은 효율적이고 정확한 MoE MLLM 추론을 가능하게 하기 위해 전문가(experts)를 적응적으로 건너뛰는 최초의 훈련 불필요(training-free) 프레임워크인 MoDES 논문의 공식 구현체입니다. 13개의 벤치마크에 걸쳐 3개의 모델 시리즈를 대상으로 한 광범위한 실험을 통해, MoDES는 이전 방법들을 크게 능가합니다. 예를 들어, Qwen3-VL-MoE-30B-A3B-Instruct에 대해 전문가의 88%를 건너뛸 때, MoDES는 최대 **10.67%**의 성능 향상(97.33% vs. 86.66%)을 달성합니다. 또한 프리필링(prefilling)에서 2.16배, 디코딩(decoding) 속도에서 1.26배의 속도 향상을 통해 추론 속도를 개선합니다.

제안된 MoDES의 개요 파이프라인 (Overview pipeline). 추론 시, *프런티어 검색 (frontier search)*에서 텍스트 토큰(예: 위의 파란색 사각형)을 사용합니다. 임계값(threshold) 미만의 점수를 가진 전문가들은 건너뜁니다. 이 방법은 MoE MLLM의 성능을 유지하면서 계산량을 크게 줄여줍니다.

2026년 2월 20일: 🔥 저희 논문에서 제시된 전문가 건너뛰기(expert skipping)를 위한 Python 코드를 공개합니다. 한 번 시도해 보세요!
2026년 2월 20일: 🌟 저희 논문이 CVPR 2026에 채택되었습니다! 🎉 축하해 주세요!

8× H100/H200/H800/A100/A800 GPU (GPU 개수가 적을 경우 필요에 따라 스크립트를 조정하세요)

conda create -n modes python=3.11 -y
conda activate modes
pip install -r requirements.txt
...

Qwen3-VL의 경우, 최신 transformers를 사용하세요:

git clone https://github.com/huggingface/transformers.git
pip install -e transformers/

# 먼저 huggingface-cli에 로그인하세요
mkdir -p storage/models/Kimi-VL-A3B-Instruct
# 해당 모델의 경우 Qwen3-VL-MoE로 교체하세요
...

export prefix=/path/to/your/dir
export PYTHONPATH=$prefix:$PYTHONPATH
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
...

export HF_ALLOW_CODE_EVAL=1
export HF_DATASETS_TRUST_REMOTE_CODE=true
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
...

참고

eval/kimi.py를 eval/qwen3.py로, kimi_vl을 qwen3_vl로, 그리고 storage/models/Kimi-VL-A3B-Instruct를 교체하세요.

with storage/models/Qwen3-VL-30B-A3B-Instruct

Qwen3-VL을 위해.

MoE 레이어 (layers)를 위한 빠른 CUDA 구현.
InternVL 시리즈를 위한 코드.

우리의 코드는 transformers 및 lmms-eval을 기반으로 개발되었습니다.

만약 귀하의 연구에 MoDES가 유용하다고 판단된다면, 다음을 인용해 주세요:

@InProceedings{huang2025modesacceleratingmixtureofexpertsmultimodal,
title = {MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping},
author = {Yushi Huang and Zining Wang and Zhihang Yuan and Yifu Ding and Ruihao Gong and Jinyang Guo and Xianglong Liu and Jun Zhang},
...

AI 자동 생성 콘텐츠

원문 바로가기

ModelTC/MoDES

요약

핵심 포인트

댓글