dMoE: 학습 가능한 블록 전문가를 활용한 dLLM
요약
dLLM의 블록 병렬 디코딩과 토큰 수준 MoE 간의 불일치 문제를 해결하기 위한 dMoE 프레임워크를 제안합니다. 블록 단위로 전문가 분포를 집계하여 활성화되는 전문가 수를 줄임으로써 메모리 병목을 완화하고 추론 속도를 가속화합니다.
핵심 포인트
- dLLM과 MoE 구조 간의 라우팅 불일치 문제 해결
- 블록 수준 전문가 분포 집계를 통한 효율적 라우팅 구현
- 기존 성능의 99.11%를 유지하며 활성화 전문가 수 대폭 감소
- 메모리 사용량 최대 79.84% 감소 및 추론 지연 시간 가속
확산 대규모 언어 모델 (Diffusion Large Language Models, dLLMs)은 최근 자기회귀 (Autoregressive) 모델의 유망한 대안으로 부상하였으며, 병렬 디코딩 (Parallel decoding)을 자연스럽게 지원하면서도 경쟁력 있는 성능을 제공합니다. 그러나 모델 용량을 확장하기 위해 dLLM이 전문가 혼합 (Mixture-of-Experts, MoE) 구조와 점점 더 통합됨에 따라, 블록 병렬 디코딩 (Block parallel decoding)과 토큰 수준의 전문가 선택 (Token-level expert selection) 사이의 근본적인 불일치가 발생합니다. 구체적으로, 각 dLLM 순전파 (Forward pass)는 양방향 의존성 (Bidirectional dependencies)을 가진 여러 토큰을 처리하는 반면, 기존의 MoE 레이어는 각 토큰을 독립적으로 라우팅 (Routing)합니다. 이러한 불일치는 고유하게 활성화되는 전문가의 수를 실질적으로 증가시켜, 추론 (Inference) 시 메모리 제한 (Memory-bound) 문제를 심화시킵니다. 이를 해결하기 위해, 우리는 단순하면서도 효과적인 블록 수준 MoE 프레임워크인 dMoE를 제안합니다. dMoE의 핵심 아이디어는 각 블록 내의 토큰 수준 전문가 분포를 하나의 통합된 블록 수준 전문가 분포로 집계하고, 이를 통해 더욱 일관된 방식으로 전문가 라우팅을 안내하는 것입니다. 이러한 방식을 통해 dMoE는 성능 저하 없이 추론 중 고유하게 활성화되는 전문가의 수를 실질적으로 줄여 메모리 제한 병목 현상을 완화합니다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 dMoE의 효과를 입증하였습니다. 평균적으로 dMoE는 기존 성능의 99.11%를 유지하면서도 고유하게 활성화되는 전문가의 수를 69.5개에서 14.6개로 줄였습니다. 동시에 메모리 사용량을 76.64%에서 79.84%까지 감소시켰으며, 1.14$ imes$에서 1.66$ imes$의 엔드 투 엔드 (End-to-end) 지연 시간(Latency) 가속을 달성했습니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/fscdc/dMoE
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기