GH Trending중요릴리즈2026. 04. 24. 03:38

LLM 추론 속도 향상 기술: DFlash를 활용한 블록 확산 디코딩

요약

DFlash는 Speculative Decoding을 위해 설계된 경량 블록 확산(Block Diffusion) 모델입니다. 이 기술은 LLM의 추론 속도를 획기적으로 높이면서도 높은 품질을 유지할 수 있게 합니다. vLLM, SGLang 등 주요 서빙 프레임워크를 지원하며, Qwen3.5-27B부터 LLaMA-3.1-8B까지 다양한 모델에 적용 가능합니다. 개발자는 이를 통해 병렬 드래프팅(parallel drafting)을 구현하여 대규모 언어 모델의 효율적인 추론 파이프라인을 구축할 수 있습니다.

핵심 포인트

DFlash는 Speculative Decoding을 위한 블록 확산 (Block Diffusion) 모델로, LLM의 병렬 드래프팅(parallel drafting)을 통해 고효율/고품질 추론을 가능하게 합니다.
vLLM, SGLang, Transformers, MLX 등 주요 백엔드를 지원하며, Qwen3.5-27B 및 LLaMA-3.1-8B 등 최신 모델에 즉시 적용할 수 있는 드래프트 모델을 제공합니다.
사용자는 각 프레임워크별로 전용 설치 명령(예: `uv pip install -e
[transformers]
` 또는 vLLM의 nightly build)을 통해 DFlash 기능을 통합할 수 있습니다.
추론 속도 최적화를 위해 SGLang에서는 `speculative-draft-model-path`와 같은 파라미터를 사용하여 드래프트 모델 경로를 명시적으로 지정해야 합니다.

DFlash는 대규모 언어 모델(LLM)의 추론 과정에서 발생하는 병목 현상을 해결하기 위해 설계된 혁신적인 경량 블록 확산 (Block Diffusion) 모델입니다. 이 기술은 Speculative Decoding을 핵심 목표로 하며, 효율적이고 고품질의 병렬 드래프팅(parallel drafting) 기능을 제공하여 전체 시스템의 처리량을 극대화합니다.

💡 DFlash의 작동 원리 및 가치

DFlash는 기존의 추론 방식에서 발생하는 지연 시간을 줄이는 데 초점을 맞춥니다. Speculative Decoding은 주 모델(Target Model)이 토큰을 하나씩 생성하는 대신, 경량화된 드래프트 모델(Draft Model)이 여러 개의 후보 토큰을 미리 예측하고, 이를 주 모델이 한 번에 검증하여 속도를 높이는 방식입니다.

DFlash가 '블록 확산'이라는 개념을 도입함으로써, 이 과정의 효율성과 안정성을 더욱 강화했습니다. 이는 단순히 토큰 단위로 추측하는 것을 넘어 블록 단위의 확률적 예측을 가능하게 하여, 특히 긴 컨텍스트나 복잡한 작업에서 성능 저하를 최소화합니다.

🛠️ 주요 지원 모델 및 생태계 확장성

DFlash는 광범위한 LLM 생태계를 포괄하며 다양한 최신 모델에 대한 드래프트 버전을 제공하고 있습니다. 현재 Qwen3.6-35B-A3B (Preview), Kimi-K2.5, Qwen3.5-9B, Llama-3.1-8B-Instruct 등 주요 모델들을 지원합니다.

가장 주목할 만한 점은 개방성입니다. 개발자는 GitHub 이슈를 통해 추가 모델 지원을 요청할 수 있으며, 곧 공개될 학습 레시피(training recipe)를 활용하여 어떤 LLM이든 자체적으로 DFlash 드래프트 모델을 훈련시켜 속도 향상에 적용할 수 있습니다.

🚀 주요 백엔드 통합 및 사용법

DFlash는 여러 최신 추론 서빙 프레임워크와 완벽하게 통합되었습니다. 개발자는 자신의 환경과 요구사항에 맞는 백엔드를 선택하여 사용할 수 있습니다:

vLLM: vLLM의 DFlash 지원을 위해서는 nightly build 설치가 필요하며, speculative-config 파라미터를 통해 드래프트 모델 경로와 예측 토큰 개수(num_speculative_tokens)를 지정합니다.
SGLang: SGLang 환경에서는 --speculative-algorithm DFLASH 옵션을 사용하고, --speculative-draft-model-path로 드래프트 모델을 명시하여 실행할 수 있습니다. 이는 복잡한 추론 파이프라인 구축에 매우 유용합니다.
Transformers (Hugging Face): Qwen3와 LLaMA-3.1 등 특정 모델에서 지원되며, draft.spec_generate() 메서드를 호출하는 방식으로 사용됩니다.
MLX (Apple Silicon): Apple M5 Pro 환경을 테스트한 효율적인 구현이 제공되어, Mac 기반 개발자들에게 최적화된 성능을 보여줍니다.

📊 평가 및 활용

DFlash의 성능은 GSM8K, math500, humaneval 등 표준 벤치마크 데이터셋에서 검증됩니다. 각 백엔드별로 전용 dflash.benchmark 명령어를 제공하여 사용자가 쉽게 성능 측정을 할 수 있습니다.

이러한 통합과 쉬운 배포 방식 덕분에, DFlash는 LLM 서빙 인프라를 구축하는 엔지니어들에게 필수적인 도구로 자리매김하고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기