ReMoE: 메모리 제한적인 MoE LLM 추론에서 라우터 미세 조정(Router Fine-Tuning)을 통한 전문가 재사용(Expert
요약
메모리 제한적인 환경에서 MoE 모델의 추론 효율을 높이기 위한 ReMoE 프레임워크를 제안합니다. 라우터 미세 조정을 통해 전문가 재사용성을 높여 I/O 오버헤드를 줄이고 디코딩 속도를 크게 향상시켰습니다.
핵심 포인트
- 라우터 미세 조정을 통한 전문가 재사용성 향상
- 캐시 지역성을 고려한 시간적 안정성 확보
- DeepSeek 및 Qwen 모델에서 성능 유지 및 재사용 26% 증가
- vLLM 및 llama.cpp 환경에서 처리량 및 디코딩 속도 개선
세밀한 전문가 혼합(Fine-grained Mixture-of-Experts (MoE)) 모델은 토큰당 전문가의 일부 서브셋만을 희소하게 활성화하여, 높은 모델 용량을 유지하면서도 활성화되는 연산량을 줄입니다. 그러나 메모리가 제한된 추론(Inference) 시나리오에서는 소수의 전문가 세트만을 캐시(Cache)할 수 있습니다. 캐시에 없는 전문가는 느린 외부 저장 장치(예: UFS)로부터 가져와야 하며, 이는 빈번한 교체(Eviction)와 상당한 I/O 오버헤드를 초래합니다. 우리는 토큰 단위의 전문가 재사용(Expert Reuse)을 높이기 위해 설계된 라우터 미세 조정(Router Fine-Tuning) 프레임워크인 ReMoE를 제안합니다. ReMoE는 라우터가 최근에 선택된 전문가 쪽으로 편향되도록 하여, 캐시 지역성(Cache Locality) 제약 조건에 더 잘 부합하는 시간적 안정성(Temporally Stable)을 갖춘 라우팅을 생성합니다. 단기 전문가 재사용을 증가시킴으로써, ReMoE는 추론 시간의 연산량을 추가하지 않고도 저장 장치로부터의 전문가 호출을 줄입니다. DeepSeek 및 Qwen 모델에 대한 실험 결과, ReMoE는 다운스트림 태스크(Downstream Task) 성능을 유지하면서 전문가 재사용을 26% 향상시켰습니다. 실제 시스템 평가를 통해 이러한 이점이 더욱 확인되었으며, vLLM GPU-CPU 전문가 오프로딩(Expert Offloading) 환경에서 출력 처리량(Output Throughput)을 8.4% 개선하였고, Jetson Orin NX 상의 llama.cpp 환경에서는 TPOT(Time Per Output Token)를 43.6-49.8% 감소시켜 다양한 워크로드에 걸쳐 1.77-1.99$ imes$의 디코딩 속도 향상을 달성했습니다. 체크포인트와 사용법은 https://github.com/BUAA-OSCAR/ReMoE 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기