TIDE: I/O 인지형 전문가 오프로딩을 통한 효율적이고 손실 없는 MoE Diffusion LLM 추론

Diffusion Large Language Models (dLLMs)는 병렬 블록 수준 디코딩 (parallel block-level decoding)을 통해 더 나은 하드웨어 활용도와 양방향 문맥 (bidirectional context)을 제공하며 자기회귀 (autoregressive, AR) 모델의 경쟁력 있는 대안으로 부상했습니다. 그러나 dLLMs가 mixture-of-experts (MoE) 아키텍처와 함께 계속해서 규모를 확장함에 따라, 자원이 제한된 장치에서의 배포는 여전히 해결되지 않은 과제로 남아 있습니다. 기존의 AR 기반 방식들은 종종 과도한 I/O 오버헤드(I/O overhead)를 발생시키거나 상당한 연산 병목 현상 (compute bottlenecks)을 초래합니다. 본 연구에서는 블록 내 디퓨전 (diffusion) 과정 동안 전문가 활성화 (expert activations)의 시간적 안정성 (temporal stability)을 활용하는 새로운 자원 효율적 추론 시스템인 TIDE를 제안합니다. 구체적으로, 우리는 블록 내 디퓨전 과정 중 전문가 활성화의 시간적 안정성을 활용하며, I/O 인지 (I/O-aware) 방식으로 전문가 배치를 업데이트하는 간격 기반 전문가 갱신 (interval-based expert refresh) 전략을 도입합니다. 최적의 성능을 보장하기 위해, 우리는 추론 스케줄링을 수학적 프로그래밍 문제로 공식화하여 I/O 트래픽과 CPU 연산을 최소화하는 최적의 간격을 도출합니다. 가장 중요한 점은, TIDE는 모델 학습이 필요 없는 손실 없는 (lossless) 최적화 방식이며, dLLM 추론을 위한 "공짜 점심 (free lunch)"과 같은 가속을 제공한다는 것입니다. 단일 GPU-CPU 시스템에서, 우리는 TIDE가 LLaDA2.0-mini 및 LLaDA2.0-flash 모델에 대해 각각 기존 베이스라인 대비 최대 1.4배 및 1.5배의 처리량 (throughput) 향상을 달성함을 입증했습니다.

Insights

TIDE: I/O 인지형 전문가 오프로딩을 통한 효율적이고 손실 없는 MoE Diffusion LLM 추론

요약

핵심 포인트

댓글

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개