
2026년의 Speculative Decoding: DFlash와 DSpark가 어떻게 15배의 LLM 추론 속도 향상을 실현하고 있는가
요약
DFlash와 DSpark 기술을 통해 LLM 추론 속도를 최대 15배 향상시키는 Speculative Decoding의 최신 연구 동향을 분석합니다. ICML 2026에 채택된 DFlash의 KV Injection 아키텍처와 DeepSeek의 DSpark 프레임워크를 심층 비교합니다.
핵심 포인트
- DFlash와 DSpark를 통해 LLM 추론 처리량 최대 15배 향상 가능
- DFlash: Block Diffusion Drafting 및 KV Injection 아키텍처 활용
- DSpark: DeepSeek의 준-자기회귀 프레임워크 및 Markov Head 기술
- 기존 EAGLE-3의 한계를 극복하는 차세대 추론 최적화 기술
Meta Description: DFlash와 DSpark가 2026년 Speculative Decoding (추측적 디코딩) 벤치마크를 경신했습니다 — 실제 운영 중인 LLM 배포 환경에서 최대 15배의 처리량(throughput) 이득과 사용자당 85% 더 빠른 생성 속도를 제공합니다. 여기 생산용 추론 시스템을 구축하는 모든 ML 엔지니어가 지금 당장 알아야 할 심층 기술 분석이 있습니다.
Focus Keyword: speculative decoding LLM inference
2026년의 Speculative Decoding: DFlash와 DSpark가 어떻게 15배의 LLM 추론 속도 향상을 실현하고 있는가
목차
- GPU 예산을 낭비하는 숨겨진 비효율성
- Speculative Decoding (추측적 디코딩) 기초: Draft-Verify (초안 작성-검증) 작동 방식
- 2.1 지연 시간(Latency) 방정식과 세 가지 레버
- 2.2 EAGLE-3가 약 2~3배에서 한계에 부딪힌 이유
- DFlash: Block Diffusion Drafting (ICML 2026)
- 3.1 "Target Knows Best": KV Injection (KV 주입) 아키텍처
- 3.2 DFlash 벤치마크 결과
- 3.3 프로덕션 환경에서 DFlash 실행하기
- DSpark: DeepSeek의 Semi-Autoregressive (준-자기회귀) 프레임워크
- 4.1 Markov Head: Suffix Decay (접미사 붕괴) 문제 해결
- 4.2 Confidence-Scheduled Verification (신뢰도 기반 스케줄링 검증)
- 4.3 DSpark 실행 및 자체 Drafter (초안 작성기) 학습시키기
- DFlash vs. DSpark vs. EAGLE-3: 전체 비교
- 결정 가이드: 언제 무엇을 사용할 것인가
- 더 큰 그림: 추론 최적화가 나아가는 방향
- 결론
1. GPU 예산을 낭비하는 숨겨진 비효율성
아침 커피를 마시다 멈칫하게 만들 숫자가 하나 있습니다. 귀하의 A100 또는 H100은 LLM 추론 중에 이론적 FLOPs의 20% 미만으로 작동하고 있을 가능성이 높습니다. 이는 잘못된 배치(batching) 때문도, 양자화(quantization) 선택 때문도, 최적화되지 않은 메모리 레이아웃 때문도 아닙니다. 바로 자기회귀(autoregressive) 트랜스포머가 텍스트를 생성하는 방식의 근본적인 아키텍처적 특성 때문입니다.
모든 토큰은 이전 토큰이 나올 때까지 기다립니다. 순전파(forward pass)를 계산하고, 토큰 $t$를 샘플링한 후에야 비로소 토큰 $t+1$에 대한 순전파를 계산할 수 있습니다. GPU는 모든 가중치(weights), 모든 KV 캐시(KV caches), 모든 어텐션 헤드(attention heads)를 건드리는 전체 순전파를 완료한 후, 출력 분포(output distribution)에서 샘플링을 하는 동안 유휴(idle) 상태로 머뭅니다. 단 하나의 Chain-of-Thought (CoT) 추론 트레이스에 대해 이 과정을 만 번 반복하면, 마치 슬로 모션으로 작동하는 매우 비싼 컨베이어 벨트를 보는 것과 같습니다.
이러한 직렬적 토큰 생성 루프는 항상 실제 서비스 환경의 speculative decoding (추측적 디코딩) LLM 추론의 아킬레스건이었습니다. 하지만 지난 한 달 동안, 두 가지 연구 혁신이 가능성의 범위를 근본적으로 바꾸어 놓았습니다. ICML 2026에 채택된 UC San Diego z-lab의 DFlash, 그리고 2026년 6월 27일 DeepSeek가 오픈 소스로 공개한 DSpark가 바로 그것입니다. 이들은 수년 만에 실질적인 LLM 추론 가속화 분야에서 가장 중요한 도약을 보여주고 있습니다. DFlash는 **6.08배의 손실 없는 단일 스트림 속도 향상 (lossless single-stream speedup)**을 달성했으며, NVIDIA는 Blackwell 하드웨어에서 독립적으로 **15배의 처리량 (throughput)**을 보고했습니다. 한편, DSpark는 DeepSeek-V4 트래픽이 흐르는 실제 운영 환경에서 사용자당 생성 속도를 60~85% 향상시켰습니다.
이 포스트는 두 프레임워크에 대한 심층적인 기술 분석을 제공합니다. 이들이 어떻게 작동하는지, 왜 작동하는지, 현재 어떻게 배포할 수 있는지, 그리고 둘 중 무엇을 선택해야 하는지를 다룹니다. 글을 다 읽고 나면, 여러분의 추론 스택을 EAGLE-3 베이스라인에서 2026년 수준의 성능으로 끌어올리는 데 필요한 정보를 얻게 될 것입니다.

그림 1: GPU 활용 타임라인 — 자기회귀 디코딩 (왼쪽) vs. DFlash 추측적 디코딩 (오른쪽). 유휴 상태가 지배적인 직렬 생성 방식과 대비되는 밀집된 병렬 검증 블록.
2. Speculative Decoding 101: Draft-Verify의 작동 원리
DFlash와 DSpark를 깊이 있게 살펴보기 전에, 두 기술이 기반으로 하고 있는 메커니즘을 정확히 정의해 보겠습니다. Speculative decoding (추측적 디코딩)은 2022년에 정식화되었으며 다음과 같은 원리로 작동합니다. 비용이 많이 드는 타겟 모델 (target model)로 토큰을 하나씩 생성하는 대신, 저렴하고 빠른 _초안 모델 (draft model)_을 사용하여 _k_개의 후보 토큰 블록을 제안합니다. 그런 다음 대규모 타겟 모델을 사용하여 해당 블록 전체에 대해 단 한 번의 순전파 (forward pass)를 — 병렬로 — 실행하고, 각 위치를 타겟 모델이 생성했을 결과와 비교하여 검증합니다.
수락 기준은 거부 샘플링 (rejection sampling) 규칙을 따릅니다. 초안 블록의 각 위치 _i_에 대하여:
- 초안의 토큰이 타겟 모델이 생성했을 토큰과 일치하면, 이를 수락 (accept) 합니다 (추가 비용 없음).
- 일치하지 않으면,
min(1, p_target(x_i) / p_draft(x_i))의 확률로 수락합니다. - 첫 번째 거부 (rejection)가 발생하면 블록 생성을 종료하고, 타겟 분포로부터 하나의 보너스 토큰을 추가합니다.
이 규칙은 모든 것의 기초입니다. 이 규칙은 출력 분포가 타겟 모델이 단독으로 생성했을 결과와 정확히 동일함 (exactly identical) 을 보장합니다. 즉, 품질 저하도, 근사치 사용도, 트레이드오프 (trade-off)도 없습니다. Speculative decoding은 구조적으로 손실이 없는 (lossless) 방식입니다.
2.1 지연 시간 방정식과 세 가지 레버 (Three Levers)
Speculative decoding을 통한 속도 향상은 하나의 방정식에 의해 결정됩니다:
L = (T_draft + T_verify) / τ
여기서:
T_draft= _k_개 토큰 블록을 초안 작성하는 데 걸리는 시간T_verify= 타겟 모델이 블록을 검증하는 데 걸리는 시간τ= 사이클당 수락되는 예상 토큰 수 (최소 한 개의 보너스 토큰을 얻으므로 항상 ≥ 1)
자기회귀 생성 (autoregressive generation) 대비 속도 향상은 τ × T_autoregressive / (T_draft + T_verify)와 같습니다. 조절할 수 있는 세 가지 레버 (levers) 가 존재합니다:
- 더 빠르게 초안 작성 (Draft faster) —
T_draft를 줄임 - 더 잘 초안 작성 (Draft better) —
τ를 높임 (사이클당 더 많은 토큰 수락) - 더 똑똑하게 검증 (Verify smarter) — 거부될 것이 확실한 토큰은 검증하지 않음으로써 낭비되는
T_verify를 줄임
2026년의 모든 Speculative Decoding (추측적 디코딩) 프레임워크는 본질적으로 이러한 레버(levers)들의 어떤 조합이 실제 환경에서 최고의 이득을 가져다줄지에 대한 도박과 같습니다. 이전의 SOTA (State-of-the-Art, 최첨단 기술)였던 EAGLE-3는 주로 계층적 특징 융합 (hierarchical feature fusion)을 통해 레버 2(더 나은 초안 품질)를 활용했습니다. DFlash는 근본적으로 다른 초안 생성 (drafting) 전략으로 레버 1을 공략합니다. DSpark는 세 가지 모두를 동시에 공략합니다.
2.2 EAGLE-3가 약 2~3배의 한계에 부딪힌 이유
EAGLE-3는 매우 인상적인 작업물입니다. 이 방식은 특징 융합 (feature fusion) 접근법 — 타겟 모델로부터 은닉 상태 (hidden states)를 추출하여 이를 초안 모델 (draft model)의 조건부 신호 (conditioning signals)로 입력하는 방식 — 을 사용하여 기존 EAGLE보다 수락된 길이 (accepted length)를 극적으로 개선했습니다. 실제 운영 벤치마크에서 EAGLE-3는 대부분의 작업에서 통상적으로 1.7배에서 2.0배의 속도 향상을 달성합니다.
한계점은 그 초안 생성 전략에서 기인합니다. 즉, 여전히 자기회귀적 (autoregressive) 방식이라는 점입니다. 블록 크기가 _k_일 때, EAGLE-3는 _k_번의 순차적인 초안 생성 단계를 실행해야 합니다. 초안 생성 비용은 블록 크기에 따라 선형적으로 증가합니다. 이는 τ를 개선하기 위해 _k_를 자유롭게 늘릴 수 없음을 의미합니다. 비용 또한 똑같이 빠르게 증가하기 때문입니다. 결국 하나의 직렬 병목 현상 (타겟 모델의 자기회귀적 생성)을 단지 더 저렴한 다른 직렬 병목 현상 (초안 모델의 자기회귀적 생성)과 맞바꾸는 것에 불과합니다.
수학적으로 표현하면, EAGLE-3의 초안 생성 비용은 시간 복잡도 측면에서 _O(k)_로 확장되며, 이는 점근적으로 달성 가능한 τ / T_draft 비율을 제한합니다. DFlash는 자기회귀적 초안 생성을 완전히 제거함으로써 이러한 확장 법칙 (scaling law)을 완전히 깨뜨립니다. 이것이 바로 이 섹션에서 다룰 핵심적인 구조적 차이점입니다.
3. DFlash: 블록 확산 초안 생성 (Block Diffusion Drafting, ICML 2026)
UC San Diego의 z-lab에서 발표한 DFlash (ICML 2026 채택, arXiv:2602.06036)는 기만적일 정도로 단순하지만 혁신적인 선택을 합니다. 바로 자기회귀적 초안 모델을 블록 확산 모델 (block diffusion model)로 교체하는 것입니다. DFlash는 토큰을 위치별로 하나씩 생성하는 대신, **단 한 번의 병렬 순전파 (single parallel forward pass)**를 통해 _k_개의 토큰으로 구성된 전체 블록을 생성합니다.
블록 확산 모델 (Block diffusion models) — 이산 확산 언어 모델 (discrete diffusion LMs)의 변형 — 은 마스킹된 토큰 블록을 반복적으로 노이즈 제거 (denoising) 함으로써 작동합니다. 학습 시에는 모델이 손상된 버전으로부터 원래의 토큰을 예측하는 법을 배웁니다. 추론 시에는 (이전의 초안 생성용 확산 방식들의 실패 요인이었던 느린) 여러 번의 노이즈 제거 단계 대신, DFlash는 **단 한 번의 노이즈 제거 단계 (just one denoising step)**를 수행합니다. 그 이유는 초안이 높은 비율로 수락될 수 있을 만큼만 충분히 좋으면 되기 때문입니다. 타겟 모델 (target model)의 병렬 검증 (parallel verification)이 결과적으로 최종 출력 분포를 보장합니다.
이러한 접근 방식은 T_draft를 _O(k)_에서 _O(1)_로 축소합니다. 즉, 8개 토큰 블록을 초안으로 생성하는 비용이 1개 토큰 블록을 생성하는 비용보다 크지 않습니다. 이를 통해 DFlash는 추가적인 깊이가 순차적 지연 시간 (sequential latency)을 늘리지 않으면서도 품질(더 높은 τ)을 높여주기 때문에, 페널티 없이 더 깊고 표현력이 풍부한 초안 모델 (draft models)을 사용할 수 있습니다.
3.1 "타겟이 가장 잘 안다": KV 주입 아키텍처 (KV Injection Architecture)
DFlash의 단일 패스 초안 (one-pass draft)을 매우 정확하게 만드는 메커니즘은 저자들이 "타겟이 가장 잘 안다 (target knows best)"는 통찰이라고 부르는 것입니다. 거대 자기회귀 타겟 모델 (large autoregressive target models)은 입력 컨텍스트에 대한 풍부한 내부 표현 (internal representations)을 발달시킵니다. 즉, 이들의 은닉 상태 (hidden states)는 많은 그럴듯한 미래 토큰 시퀀스에 대한 정보를 암묵적으로 인코딩하고 있습니다. DFlash는 여러 타겟 레이어 (target layers)에서 은닉 상태를 추출하여 이를 압축된 *타겟 컨텍스트 특징 (target context feature)*으로 융합하고, 이 특징을 초안 모델의 조건부 입력 (conditioning)으로 주입합니다.
결정적으로, DFlash의 주입 전략은 EAGLE-3와 다릅니다. EAGLE-3는 타겟 특징을 초안 모델의 입력 임베딩 (input embeddings) 단계에서만 융합합니다. 초안이 더 깊게 실행됨에 따라, 해당 신호는 어텐션 (attention) 및 피드포워드 (feedforward) 연산 레이어를 거치며 희석됩니다. 반면 DFlash는 타겟 컨텍스트 특징을 **모든 초안 레이어의 Key 및 Value 프로젝션 (Key and Value projections)**에 직접 주입합니다. 이렇게 투영된 특징들은 초안의 KV 캐시 (KV cache)에 머물며 모든 초안 어텐션 연산 전반에 걸쳐 지속됩니다.
이러한 구조적 차이 때문에 DFlash에서는 깊이(depth)가 다르게 확장됩니다. EAGLE-3의 경우, 초안 모델(draft model)이 더 깊어진다고 해서 수락 길이(acceptance length)가 반드시 개선되지는 않는데, 이는 깊이가 깊어질수록 조건화 신호(conditioning signal)가 약해지기 때문입니다. 반면 DFlash에서는 매 레이어마다 신호가 강화되므로, 16개의 토큰을 생성하는 5개 레이어의 DFlash 초안 모델은 8개의 토큰을 생성하는 EAGLE-3보다 더 낮은 총 지연 시간(total latency)으로 일관되게 더 나은 성능을 보여줍니다.

그림 2: DFlash 아키텍처 — 타겟 은닉 상태(target hidden states)가 모든 초안 레이어의 Key-Value 투영(projections)에 주입되어, 깊이에 따라 신호가 희석되는 대신 조건화 신호를 강화합니다.
3.2 DFlash 벤치마크 결과
수치는 놀랍습니다. Transformers 백엔드를 사용하고 temperature 0 설정에서의 Qwen3-8B 모델을 대상으로, 자기회귀(autoregressive) 베이스라인 및 EAGLE-3 대비 작업별 속도 향상(speedup)은 다음과 같습니다:
| 작업 | 자기회귀 (Autoregressive) | EAGLE-3 (16) | DFlash (16) | DFlash τ |
|---|---|---|---|---|
| GSM8K | 1.00× | 1.94× | 5.15× | 6.54 |
| ... |
DFlash의 평균 수락 길이인 τ = 6.49는 초안-검증(draft-verify) 사이클마다 약 6.5개의 토큰이 수락됨을 의미합니다. 이는 1.76×의 평균 속도 향상을 통해 유추할 수 있는 EAGLE-3의 약 1.7개 토큰과 대조적입니다. 가장 큰 이득은 수학 및 코드와 같이 구조화되고 높은 확률의 시퀀스를 가진 작업에서 나타납니다. MT-Bench(개방형 대화)에서는 2.75×로 더 적은 향상을 보였으며, 이것이 왜 중요한지는 DSpark 섹션에서 더 자세히 다룹니다.
NVIDIA Blackwell 하드웨어(8× B300 GPU, DGX B300 시스템, TensorRT-LLM, gpt-oss-120b)에서 NVIDIA 엔지니어링 팀은 사용자당 상호작용 목표인 초당 500~600 토큰 수준에서 **최대 15배의 처리량(throughput)**을 보고했습니다. 이는 선별된 정점 수치가 아닙니다. 이는 고정된 상호작용 제약 조건(fixed interactivity constraint) 하에서의 수치로, 개별 사용자의 응답 지연 시간을 수용 가능한 수준으로 유지하면서 밀어붙일 수 있는 서빙 처리량을 나타냅니다.
3.3 프로덕션 환경에서 DFlash 실행하기
DFlash는 vLLM, SGLang, 그리고 Hugging Face Transformers 백엔드(backend)에 대한 일급 지원(first-class support)을 제공합니다. EAGLE-3에서 전환하는 것은 vLLM에서 설정 하나만 변경하면 됩니다:
# vLLM으로 DFlash 실행 — EAGLE-3를 대체하는 드롭인 교체(drop-in replacement)
# speculative-config를 DFlash 체크포인트(checkpoint)를 가리키도록 변경하기만 하면 됩니다
...
Hugging Face Transformers와의 직접적인 통합 — 연구, 미세 조정(fine-tuning) 파이프라인, 또는 소규모 모델을 로컬에서 서빙하는 데 유용합니다:
# Hugging Face Transformers 백엔드를 사용한 DFlash 추론 (inference)
# 초안 모델(draft model)과 타겟 모델(target model) 모두 동일하거나 서로 다른 CUDA 장치에 로드됩니다
...
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기