
dMoE: 확산 LLM (diffusion LLMs)을 위한 블록 수준 라우팅 (Block-level routing)
요약
dMoE는 확산 LLM(diffusion LLMs)을 위한 블록 수준 라우팅 기술을 제안합니다. 성능 저하를 최소화하면서 활성화되는 전문가 수를 줄여 메모리 효율성과 추론 속도를 대폭 개선했습니다.
핵심 포인트
- 성능의 99.11%를 유지하며 전문가 활성화 수 감소
- 메모리 사용량 최대 80% 절감
- 추론 속도 최대 1.66배 향상
- 블록 수준 라우팅을 통한 효율적인 전문가 활용
dMoE: 확산 LLM (diffusion LLMs)을 위한 블록 수준 라우팅 (Block-level routing)
99.11%의 성능을 유지하면서 고유하게 활성화되는 전문가 (experts)의 수를 69.5에서 14.6으로 줄이고, 메모리를 최대 80%까지 절감하며, 최대 1.66배의 속도 향상을 제공합니다.
모델 (Model):
https://huggingface.co/FSCCS/dMoE-16B
논문 (Paper):
https://huggingface.co/papers/2605.30
876
…
코드 (Code):
https://github.com/fscdc/dMoE
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기