DSpark: Speculative decoding을 활용한 LLM 추론 가속화 [pdf]

DSpark: 준자기회귀(semi-autoregressive) 생성과 신뢰도 스케줄링을 결합한 추측 디코딩(speculative decoding) 프레임워크
병렬 드래프터(parallel drafter)가 한 번의 순전파로 긴 토큰 블록을 제안하지만 토큰 간 의존성 부재로 후반부수락률 급감(acceptance decay)이 발생하는 문제를준자기회귀 구조와부하 인지 검증으로 동시 해결- 무거운
병렬 백본에 경량순차 모듈을 결합해 블록 내부 의존성을 주입, 드래프트 속도를 유지하면서접미부 붕괴(suffix decay)완화 신뢰도 헤드(confidence head)가 위치별 접두부 생존 확률을 추정하고,하드웨어 인지 스케줄러가 엔진 처리량 곡선에 맞춰 요청마다검증 길이를 동적으로 조정- 오프라인 벤치마크에서 자기회귀 baseline(Eagle3) 및 병렬 baseline(DFlash) 대비
수락 길이(accepted length)일관 향상, DeepSeek-V4 실서비스 배포 시 검증 낭비 억제 - 기존 production baseline인
MTP-1대비 동일 처리량에서 사용자별 생성 속도60–85% 가속, 엄격한 상호작용 제약 하에서 도달 불가했던 성능 구간을 열어Pareto frontier 확장

문제 정의 — 병렬 드래프터의 두 가지 병목

LLM은 토큰을 자기회귀적으로 생성, 각 토큰마다 선행 토큰 전체에 조건화된 순전파가 필요해 추론 지연이 출력 길이에 비례, 낮은 GPU 활용도와 높은 대기 시간이 production 서빙의 주요 병목으로 작용
추측 디코딩은 경량 draft 모델이 후보 블록을 제안하고 target 모델이 단일 순전파로 검증, rejection sampling으로 target 분포와 일치하는 최장 접두부를 수락하므로
품질 손실 없이가속 -

자기회귀 드래프터의 한계

각 위치를 이전 토큰에 조건화해 강한 모델링 능력을 가지나, 드래프팅 비용이 블록 크기에 선형 비례(𝑇draft ∝ 𝛾)해
작은 블록과얕은 구조로 제약
각 위치를 이전 토큰에 조건화해 강한 모델링 능력을 가지나, 드래프팅 비용이 블록 크기에 선형 비례(𝑇draft ∝ 𝛾)해

병렬 드래프터의 한계

모든 위치를 한 번에 생성해 드래프트 지연이 블록 크기와 거의 무관, 큰 블록(예: 𝛾=16) 사용 가능
각 위치를 독립적으로 예측해 토큰 간 의존성 모델링 불가,
**다중 모드 충돌(multi-modal collision)**과 후반부 급격한 수락률 저하 유발 - 긴 블록을 무분별하게 전부 검증하면 처리량 저하, 특히 고동시성 환경에서 거부 위험이 높은 토큰이 배치 용량을 점유
이상적 검증 길이는 두 축에서 변동 — 데이터 측면(코드 등 구조화 요청은 높은 수락률, 개방형 채팅은 낮음)과 시스템 측면(저부하 시 추가 검증 거의 무료, 고부하 시 다른 활성 요청 용량 잠식)

아키텍처 — 두 개의 상호보완 구성요소

토큰당 지연은 𝐿 = (𝑇draft + 𝑇verify)/𝜏, 가속은 𝑇draft 감소·𝜏 증가·유효 𝑇verify 감소의 세 레버로 환원

디코딩 사이클: 프롬프트 ABC에서 target 모델이 다음 토큰 D 생성(앵커 역할) → 병렬 백본과 순차 헤드가 드래프트 EFGH와 신뢰도 점수 c1–c4 생성 → 스케줄러가 접두부 EFG 유지·저신뢰 토큰 H 제거 → target 모델이 병렬 검증, E·F 수락 G 거부 시 보정 토큰 G* 생성

준자기회귀 생성 (Semi-Autoregressive Generation)

병렬 드래프터는 “of course”/“no problem” 같은 다중 연속 가능성에서 “of problem” 같은 비일관 조합을 생성, 각 위치가 실제 샘플된 선행 토큰이 아닌 모든 가능 선행 토큰에 대해 marginalize하기 때문
병렬 단계(Parallel stage): 병렬 백본(DFlash 채택)이 전체 블록에 단일 순전파, 은닉 상태와 기본 로짓 생성, 앵커 자체를 첫 예측 위치로 처리해 𝛾개 입력으로 𝛾개 로짓 산출, 드래프트 연산 절감순차 단계(Sequential stage): 기본 로짓에 접두부 의존 전이 편향 𝐵𝑘를 더해 각 위치가 블록 내 이전 샘플 토큰에 조건화, 자기회귀 분해로 인과적 블록 분포 유도, 순차 처리이므로 병렬 단계보다 충분히 경량(𝑇sequential ≪ 𝑇parallel)이어야 함Markov 헤드: 직전 토큰만 의존하는 1차 전이로 단순화, 𝑉×𝑉 전체 행렬을 저랭크 분해 𝐵 = 𝑊1𝑊2(기본 𝑟=256)로 근사, 저장과 단계당 연산 최소화, “of” 샘플 후 “course” 강화·“problem” 억제로 교차 모드 충돌 완화RNN 헤드: 순환 상태 𝑠𝑘로 블록 내 전체 접두부 이력 축적, 게이트 갱신으로 직전 토큰 이전 정보까지 접근, 단 구현 복잡도가 높고 배포 특성이 불리

신뢰도 스케줄링 검증 (Confidence-Scheduled Verification)

드래프트 수락률이 도메인별로 변동(코드 높음, 개방형 채팅 낮음)하고, 추가 토큰 검증 비용이 엔진 부하에 따라 달라지므로 양의 기대 수익 토큰에만 target 연산을 라우팅하는 통합 메커니즘 필요
신뢰도 헤드(Confidence Head): 위치 𝑘마다 스칼라 추정 𝑐𝑘 ∈ (0,1) 출력, 선행 토큰 전부 수락 조건에서 위치 𝑘 토큰이 검증을 통과할 조건부 확률 모델링, 경량 선형 투영 + sigmoid 구조- 분석적 단계별 수락률 𝑐*𝑘 = 1 − ½‖𝑝𝑑𝑘 − 𝑝𝑡𝑘‖1(드래프트·target 분포 간 total variation 거리)로 지도 학습

사후 보정 — Sequential Temperature Scaling (STS): 하드웨어 인지 스케줄링이 누적 수락 확률의 절대값을 요구하나 신경망 신뢰도는 과신(overconfident) 경향, 각 𝑐𝑖가 조건부 확률이므로 접두부 누적곱으로 인수분해, held-out 검증셋에서 좌→우로 ECE를 최소화하는 1D grid search 수행, 순서 보존 변환이라 토큰 순위는 유지하드웨어 인지 접두부 스케줄러(Hardware-Aware Prefix Scheduler): 검증 길이 선택을 전역 처리량 최대화 문제로 정식화, 활성 요청 𝑅개에 대해 SPS(𝐵)(엔진 초기화 시 1회 프로파일링한 비용표)를 활용, 𝛩 = 𝜏·SPS(𝐵) 최대화- 생존 확률 𝑎𝑟,𝑗가 𝑗에 대해 단조 비증가이므로 전역 정렬·탐욕적 선택이 블록 내 접두부 의존성을 자연히 준수, 𝑂(1) 비용표 조회로 점진 admit

무손실 추측 디코딩은 비예견(non-anticipating) 속성을 요구, Markov 특징이 이전 샘플 토큰에 의존해 사후 전역 탐색은 𝑥𝑟,𝑘 정보를 누설하고 선택 편향 유발
**조기 중단(early-stopping)**메커니즘으로 처리량이 떨어질 때 즉시 중단, admit 결정이 해당 단계까지 처리된 접두부에만 의존하도록 인과성 강제, 목적 𝛩가 단봉(unimodal)일 때만 전역 최댓값 보장

학습 (Training)

target 시퀀스에서 다수 앵커 위치를 무작위 샘플해 𝛾토큰 블록을 학습 데이터로 구성
target 모델은 전 과정 고정(frozen), draft 모델은 임베딩층·LM head를 공유하며 고정, 백본 드래프터·순차 블록·신뢰도 헤드만 갱신
학습 목적은 세 항의 가중합 — 교차 엔트로피 손실 Lce, 분포 정합 손실 Ltv, 신뢰도 손실 Lconf
모든 항은 위치 가중치 𝑤𝑘 = exp(−(𝑘−1)/𝛾)로 가중, 접두부 기반 검증에서 기대 수락 길이에 더 기여하는 초반 위치 강조
Ltv는 total variation 거리를 패널티화, 단계별 수락 확률이 1 − ½‖𝑝𝑑 − 𝑝𝑡‖1과 같으므로 Ltv 최소화가 곧 기대 수락률 최대화
기본 가중치 𝛼ce = 0.1, 𝛼tv = 0.9, 𝛼conf = 1.0

실험 — 오프라인 벤치마크

설정

target 모델: Qwen3-{4B, 8B, 14B}, Gemma4-12B / 비교 드래프터: SOTA 병렬 드래프터 DFlash, 자기회귀 드래프터 Eagle3
동일 프레임워크·데이터로 전체 재학습, Eagle3의 TTT horizon(7)을 DFlash·DSpark의 블록 크기(7)에 정렬, draft 층수 Eagle3은 1·DSpark과 DFlash는 5
학습 데이터:
Open-PerfectBlend130만 샘플(chat 17.6%, math 39.4%, code 38.9%, instruction-following 4.1%), 프롬프트만 사용하고 응답은 각 target 모델이 재생성, 10 epoch 학습 - 평가 도메인: 수학(GSM8K, MATH500, AIME25), 코드(MBPP, HumanEval, LiveCodeBench), 일상 채팅(MT-Bench, Alpaca, Arena-Hard), 샘플링 온도 1.0, 라운드당 수락 길이 𝜏 보고

주요 결과

오프라인 평가는 신뢰도 스케줄러를 비활성화해 고정 블록으로 순수 드래프트 품질만 분리
Qwen3-4B·8B·14B에서 Eagle3 대비 매크로 평균 수락 길이
30.9%·26.7%·30.0% 향상, DFlash 대비16.3%·18.4%·18.3% 향상, Gemma4-12B에서도 일관 이득으로 모델 패밀리 간 일반화 확인 - 구조화 과제의 수락 길이가 개방형 채팅보다 높음(Qwen3-4B 기준 수학 5.57·코드 5.12 vs 채팅 3.49), 데이터 예측성 분산이 정적 검증 길이의 낭비를 유발해 신뢰도 스케줄링의 동기로 작용

실험 분석

병렬 생성이 자기회귀를 능가하는 이유

병렬·준자기회귀 드래프터가 완전 자기회귀 Eagle3보다 긴 수락 길이를 내는 반직관적 관찰, 위치별 조건부 수락률(앞 위치 전부 수락된 경우만 분모로 집계)로 분석
위치 1의 용량 우위: 첫 위치는 target 문맥에만 의존, Eagle3는 𝑂(𝛾) 지연으로 얕은 망에 제약되나 𝑂(1) 병렬 드래프터는 깊은 망 사용 가능, DFlash가 Eagle3보다 높게 시작(수학 0.88 vs 0.81, 채팅 0.72 vs 0.53), 첫 토큰 거부가 블록 전체를 무효화하므로 초기 우위가 최종 수락 길이에 큰 영향후반 위치의 독립성 한계: 위치 2–7에서 Eagle3는 조건부 확실성을 활용해 유지·상승(채팅 0.53→0.74), DFlash는 급격히 저하(코드 0.87→0.78, 채팅 0.72→0.63), 다중 모드 충돌로 비일관 접미부 생성준자기회귀의 접미부 붕괴 완화: DSpark은 깊은 병렬 백본의 높은 초기 수락(수학 0.93 시작)을 계승하면서 경량 순차 헤드로 후반 붕괴를 억제, 블록 전체에서 높고 안정적인 조건부 수락률 유지

적은 자기회귀로도 큰 효과

드래프터 깊이: 블록 크기 7 고정, DSpark 층수 1→5 증가 시 성능 단조 향상, 1→2층에서 한계 이득 최대,2층 DSpark이 5층 DFlash를 전 도메인에서 능가, 순차 헤드의 파라미터 효율성 입증제안 길이: 깊이 5 고정, 드래프트 길이 {4,8,12,16} 확장 시 DSpark이 매 길이에서 DFlash 능가, 𝛾 증가에 따라 격차 확대(𝛾=7에서 수학 16%·코드 15%·채팅 18%, 𝛾=15에서 30%·26%·22%), RNN 헤드는 긴 길이에서 소폭 추가 이득에 그쳐 Markov 헤드를 기본 채택지연 오버헤드: 배치 128·문맥 길이 {512,1024,2048,4096} 평균 기준, 순차 블록 지연이 무시 가능, 드래프트 길이 4→16 확장 시 전체 라운드 지연에 0.2–1.3%만 추가하면서 최대 30% 수락 길이 향상

신뢰도 헤드의 역할 — 더 길게가 아니라 더 똑똑하게 검증

Qwen3-4B로 정적 임계값 스윕 진단, 임계값 상승 시 거부 토큰 필터링으로 수락률 상승, 채팅에서 효과 가장 큼(45.7%→95.7%), 수학(76.9%→92.5%)·코드(67.6%→92.0%)는 완만
정적 임계값은 시스템 부하를 무시해 동적 서빙에서 비최적, 신뢰도 모델은 강한 판별력(ROC-AUC 0.81–0.90) 보유하나 과신(ECE 3–8%), STS 적용 후 평균 ECE를 약 1%로 낮춰 신뢰할 생존 추정 확보

실서비스 배포

확장 가능 학습

DeepSeek-V4-Flash·Pro preview와 공동 배포, 병렬 백본은 mHC 적용 MoE 3개 층과 sliding window attention 128로 구성, 최대 블록 크기 𝛾=5·Markov 헤드 사용, 신뢰도 헤드는 end-to-end 학습 후 STS 보정
은닉 상태 통신(Hidden state communication): 전체 어휘 로짓(𝑉≈10⁵) 전송 대신 LM head 직전 은닉 상태만 통신하고 샘플 위치에 한해 LM head를 draft 워커에서 로컬 실행, 토큰당 통신 복잡도를 𝑂(𝑑)로 축소앵커 한정 시퀀스 패킹(Anchor-bounded sequence packing): 고정 수의 draft 앵커를 샘플해 고립 예측 블록을 밀집 배치로 패킹, 토큰 단위 attention 인덱스로 다중 독립 시퀀스 간 인과 마스킹 유지하며 padding 오버헤드 회피

스케줄러 실전 적용

두 가지 충돌 — 알고리듬은 매끄러운 단봉 용량 곡선을 가정하나 실제 SPS(𝐵)는 이산적·계단형 저하, 단계별 동적 토큰 스케줄링이 연속 CUDA graph replay·Zero-Overhead Scheduling(ZOS)과 상충
비동기 스케줄링으로 적응, ZOS가 현재 단계 완료 전 다음 배치 크기를 요구하므로 두 단계 전 신뢰도 출력으로 검증 용량 근사, 현재 단계 후보는 최신 누적 신뢰도로 정렬하고 과거 예측은 동적 절단 길이(𝐾) 결정에만 사용, 동적 top-𝐾 선택으로 캐스팅- 조기 중단을 제거해 제약 없는 전역 탐색 활성화, 두 단계 전 이력만 평가하므로 현재 토큰 𝑥𝑟,𝑘 실현과 격리되어 인과 장벽 형성, 하드웨어 절벽을 넘는 물리 처리량 최대화와 정확한 target 분포 보존 양립

고처리량·저지연 추론

production 서빙은 요청별 지연과 총 처리량을 동시 최적화, 본 배포에서 KV-cache 용량·사용자 트래픽 제약으로 유효 배치 크기가 GPU 포화 임계 미만에 머물러 두 목표가 경쟁이 아닌 높은 상관 관계로 단순화
가변 길이 쿼리 지원이 과제, 고정 길이 디코드 커널에서 단순 처리 시 padding·불균등 부하로 GPU 저활용, 모든 요청 토큰을 평탄화해 독립 요소로 처리하고 시퀀스 내부 의존성은 sparse attention의 marker tensor로 전달, DeepSeek-V4에서 index-attention·compress 커널만 수정해 가변 길이 라우팅 지원

실사용자 트래픽 성능

DSpark-5(𝛾=5)를 MTP-1 baseline과 V4-Flash·Pro production 엔진에서 비교, MTP-1은 정적 다중 토큰 드래프터(MTP-3/5)가 고동시성에서 처리량을 저하시키기에 유지된 단일 토큰 설정이었고 DeepSeek-V4-preview 출시 2주 후 DSpark으로 대체
V4-Flash: 80 tok/s/user SLA에서 처리량 51% 향상, 120 tok/s/user에서 MTP-1이 운영 한계 근접해 명목상 661% 우위(절대 배수가 아닌 상호작용 frontier 확장의 증거로 해석), 동일 처리량에서 사용자별 생성 60–85% 가속V4-Pro: 35 tok/s/user에서 52% 향상, 50 tok/s/user에서 명목상 406% 우위, 동일 용량에서 57–78% 가속, 전반적으로 throughput–interactivity frontier를 바깥으로 이동부하 적응 동작: 중간 동시성(V4-Flash 200·V4-Pro 150 요청 미만)에서 스케줄러가 MTP-1 정적 2토큰을 요청당 약 4–6토큰으로 확장해 순전파당 수락 토큰 증가, 동시성 포화 시 검증 길이를 부드럽게 축소해 저신뢰 토큰이 배치 용량을 잠식하기 전에 가지치기

한계

접두부 스케줄러가 target 검증 낭비를 최소화하나 병렬 백본의 초기 𝛾토큰 블록 생성에 드는 고정 드래프트 비용은 존재, 본질적으로 수락률이 낮은 복잡 쿼리에서는 이 선행 연산이 회수 불가
향후 draft 모델 내 난이도 인지 조기 종료(difficulty-aware early exiting)로 해당 요청이 전체 블록 생성을 우회하도록 개선 가능

결론

구조적 측면에서 무거운 병렬 백본과 경량 순차 헤드를 결합한 준자기회귀 패러다임으로 독립 병렬 드래프터의 급격한 접미부 붕괴 완화
시스템 측면에서 검증 길이 선택을 전역 처리량 최대화 문제로 정식화, 보정된 생존 확률과 실시간 엔진 부하 기반 하드웨어 인지 접두부 스케줄러로 검증 예산을 동적 조정
광범위한 오프라인 평가에서 SOTA 자기회귀·병렬 baseline을 능가, DeepSeek-V4 실배포에서 고부하 동시성 유지·사용자별 생성 가속·LLM 서빙 Pareto frontier 확장으로 실용 가치 입증