TIDE: I/O 인지형 전문가 오프로딩을 통한 효율적이고 손실 없는 MoE Diffusion LLM 추론
요약
TIDE는 Diffusion Large Language Models(dLLMs)와 MoE 아키텍처를 결합할 때 발생하는 I/O 오버헤드와 연산 병목 현상을 해결하기 위한 새로운 추론 시스템입니다. 디퓨전 과정 중 전문가 활성화의 시간적 안정성을 활용하여 간격 기반 전문가 갱신 전략을 도입하며, 모델 재학습 없이도 처리량을 크게 향상시킵니다. 실험 결과 LLaDA2.0 모델 시리즈에서 기존 대비 최대 1.5배의 처리량 향상을 달성했습니다.
핵심 포인트
- Diffusion LLM(dLLM)의 MoE 아키텍처 확장에 따른 자원 제한 장치 배포 문제 해결
- 전문가 활성화의 시간적 안정성을 활용한 I/O 인지형 간격 기반 전문가 갱신 전략 도입
- I/O 트래픽과 CPU 연산을 최소화하기 위해 추론 스케줄링을 수학적 프로그래밍으로 최적화
- 모델 학습이 필요 없는 손실 없는(lossless) 최적화 방식으로 높은 효율성 제공
- 단일 GPU-CPU 시스템에서 LLaDA2.0 모델 기준 최대 1.5배의 처리량 향상 입증
Diffusion Large Language Models (dLLMs)는 병렬 블록 수준 디코딩 (parallel block-level decoding)을 통해 더 나은 하드웨어 활용도와 양방향 문맥 (bidirectional context)을 제공하며 자기회귀 (autoregressive, AR) 모델의 경쟁력 있는 대안으로 부상했습니다. 그러나 dLLMs가 mixture-of-experts (MoE) 아키텍처와 함께 계속해서 규모를 확장함에 따라, 자원이 제한된 장치에서의 배포는 여전히 해결되지 않은 과제로 남아 있습니다. 기존의 AR 기반 방식들은 종종 과도한 I/O 오버헤드(I/O overhead)를 발생시키거나 상당한 연산 병목 현상 (compute bottlenecks)을 초래합니다. 본 연구에서는 블록 내 디퓨전 (diffusion) 과정 동안 전문가 활성화 (expert activations)의 시간적 안정성 (temporal stability)을 활용하는 새로운 자원 효율적 추론 시스템인 TIDE를 제안합니다. 구체적으로, 우리는 블록 내 디퓨전 과정 중 전문가 활성화의 시간적 안정성을 활용하며, I/O 인지 (I/O-aware) 방식으로 전문가 배치를 업데이트하는 간격 기반 전문가 갱신 (interval-based expert refresh) 전략을 도입합니다. 최적의 성능을 보장하기 위해, 우리는 추론 스케줄링을 수학적 프로그래밍 문제로 공식화하여 I/O 트래픽과 CPU 연산을 최소화하는 최적의 간격을 도출합니다. 가장 중요한 점은, TIDE는 모델 학습이 필요 없는 손실 없는 (lossless) 최적화 방식이며, dLLM 추론을 위한 "공짜 점심 (free lunch)"과 같은 가속을 제공한다는 것입니다. 단일 GPU-CPU 시스템에서, 우리는 TIDE가 LLaDA2.0-mini 및 LLaDA2.0-flash 모델에 대해 각각 기존 베이스라인 대비 최대 1.4배 및 1.5배의 처리량 (throughput) 향상을 달성함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기