DSpark: Cerebras 계약 없이도 가능한 오픈 웨이트(Open-Weight)의 속도 향상

OpenAI가 GPT-5.6 Sol을 공개한 것과 같은 주에 — 정부의 통제를 받으며 신뢰할 수 있는 파트너에게만 제공되고, Cerebras 웨이퍼 스케일(wafer-scale) 칩에서 초당 750개의 토큰을 제공하는 — DeepSeek는 조용히 다른 종류의 속도 업그레이드를 발표했습니다. DSpark는 특수한 하드웨어가 필요 없이 DeepSeek-V4 Flash의 사용자당 생성 속도를 60~85% 더 빠르게 만드는 추측적 디코딩 (Speculative Decoding) 프레임워크입니다. 이 알고리즘은 모든 사람이 이미 보유하고 있는 동일한 GPU에서 실행됩니다.

📖 차트와 임베디드 소스가 포함된 전체 버전을 ComputeLeap에서 읽어보세요 →

이러한 타이밍은 우연이 아닙니다. 이는 서구권이 하드웨어 계약으로 속도를 판매하는 동안, 오픈 웨이트 (open-weight) 생태계는 알고리즘을 통해 속도를 확보하고 있다는 가장 명확한 증거입니다.

추측적 디코딩 (Speculative Decoding)이 실제로 하는 일

대규모 언어 모델 (LLM)은 한 번에 하나의 토큰씩 텍스트를 생성합니다. 각 토큰은 모델을 통한 전체 순전파 (forward pass) 과정을 필요로 합니다. 즉, 메모리에서 로드된 수십억 개의 파라미터가 곱해지고 하나의 다음 단어 예측값으로 압축됩니다. GPU는 연산이 아닌 메모리 대역폭 (memory bandwidth)을 기다리는 데 대부분의 시간을 소비합니다. 이것이 바로 Cerebras가 연산과 메모리를 동일한 다이 (die)에 배치한 웨이퍼 스케일 칩으로 해결하려는 메모리 벽 (memory wall) 문제입니다.

추측적 디코딩 (Speculative Decoding)은 다른 트릭으로 동일한 문제를 해결합니다. 토큰당 하나의 값비싼 순전파를 실행하는 대신, 작은 "초안 (draft)" 모델이 여러 개의 토큰을 미리 제안합니다. 그러면 큰 모델이 단일 배치 (batch) 내에서 그 모든 토큰을 한꺼번에 검증합니다. 만약 추측이 맞다면 — 잘 훈련된 초안 모델의 경우 구조화된 작업에서 수락률 (acceptance rates)이 75~85%에 달합니다 — 시스템은 단 한 번의 검증 비용으로 여러 개의 토큰을 효과적으로 생성하게 됩니다.

💡 추측적 디코딩 (Speculative decoding)은 수학적으로 손실이 없습니다 (lossless). 수락된 모든 토큰은 타겟 모델 (target model)이 스스로 생성했을 결과와 동일합니다. 초안 모델 (draft model)은 후보를 제안할 뿐이며, 최종 결정권은 타겟 모델에게 있습니다.

DSpark의 작동 원리

DSpark는 Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation의 약자로, 기존의 추측적 디코더 (speculative decoders)와 차별화되는 세 가지 혁신을 담고 있습니다.

준-병렬 아키텍처 (The Semi-Parallel Architecture)

기존의 추측적 디코더들은 두 가지 진영으로 나뉩니다. Eagle3와 같은 자기회귀적 초안 생성기 (Autoregressive drafters)는 한 번에 하나의 초안 토큰을 생성하며, 수락률 (acceptance rates)은 높지만 속도가 느립니다. DFlash와 같은 병렬 초안 생성기 (Parallel drafters)는 모든 초안 토큰을 동시에 생성하여 빠르지만, 뒤쪽 위치로 갈수록 수락률이 감소합니다.

DSpark는 이 사이의 절충안을 제시합니다. 기본 로짓 (base logits)을 위해 병렬 초안 백본 (parallel draft backbone)을 사용한 다음, 각 토큰을 직전 토큰에 조건화하는 경량 순차 헤드 (lightweight sequential head)를 추가합니다. 이 헤드는 랭크 256의 저차원 인수분해 (low-rank factorization)를 사용하는 마르코프 모듈 (Markov module)입니다. 순차 헤드는 수락률 감소를 회복하면서도 단 0.2~1.3%의 오버헤드만을 추가합니다.

2계층(2-layer) DSpark가 5계층 DFlash보다 성능이 뛰어납니다. 더 깊은 아키텍처가 더 스마트한 아키텍처로 대체된 것입니다.

신뢰도 기반 스케줄링 검증 (Confidence-Scheduled Verification)

DSpark는 각 토큰의 생존 확률 (survival probability)을 추정하는 신뢰도 헤드 (confidence head)를 학습시키며, 이는 보정 오차 (calibration error)를 3~8%에서 약 1%로 줄이도록 조정되었습니다. 하드웨어 인지 스케줄러 (hardware-aware scheduler)는 이러한 점수를 동적으로 사용합니다. GPU가 유휴 상태일 때는 더 공격적으로 검증하고, 부하가 걸릴 때는 임계값 (thresholds)을 더 엄격하게 적용합니다.

수치 데이터 (The Numbers)

사용자당 생성 속도:

V4-Flash: MTP-1 베이스라인 대비 60~85% 빠름
V4-Pro: 동일 처리량 (throughput) 기준 57~78% 빠름

수락 길이 개선 사항:

Eagle3 대비: 수락된 시퀀스 (accepted sequences) 길이가 26.7~30.9% 더 김
DFlash 대비: 16.3~18.4% 개선

도메인 특화 신뢰도 가지치기 (Domain-specific confidence pruning):

채팅 수락률: 45.7% → 95.7%
수학적 추론 (Math reasoning): 76.9% → 92.5%

오픈 소스 전략: DeepSpec

DSpark는 단순한 API 업그레이드가 아닙니다. DeepSeek는 추측적 디코딩 (Speculative Decoding) 초안 모델 (Draft models)을 훈련하고 평가하기 위한 MIT 라이선스 코드베이스인 DeepSpec을 오픈 소스로 공개했습니다. 이는 Qwen3 및 Gemma4 타겟을 위한 설정과 함께 DSpark, DFlash, Eagle3 알고리즘을 지원합니다.

프로덕션 체크포인트 (Production checkpoints)는 기존 V4 가중치 (Weights)를 재사용하면서 초안 모듈 (Draft module)을 부착하는 방식이므로, 타겟 모델의 재학습 (Retraining)이 필요하지 않습니다.

하드웨어 vs. 알고리즘

하드웨어 경로: Cerebras 상의 GPT-5.6 Sol은 750 tok/s를 기록합니다. 이는 파트너십, 정부 접근 권한, 막대한 자본을 필요로 합니다.

알고리즘 경로: 범용 GPU 상의 DSpark입니다. 최대 85%의 속도 향상을 제공하며, 오픈 소스로 공개되어 DeepSeek 모델이 아닌 것에서도 작동합니다.

DeepSeek V4 Flash는 입력 캐싱 (Input caching)을 적용했을 때 100만 토큰당 $0.14/$0.28의 비용으로 SWE-bench Verified에서 79.0%를 기록했습니다. 이는 GPT-5.5보다 150배 저렴합니다. 여기에 DSpark의 속도 향상까지 더해지면 그 격차는 더욱 벌어집니다.

운영자에게 주는 의미

DeepSeek V4를 실행 중인가요? DSpark 모듈을 부착하세요. 재학습이 필요 없습니다.
다른 오픈 모델을 실행 중인가요? DeepSpec은 Qwen3 및 Gemma4를 위한 훈련 프레임워크를 제공합니다.
오픈 모델과 폐쇄형 모델을 비교 평가 중인가요? 맞춤형 실리콘 (Custom silicon)이 확실한 우위를 점했던 유일한 영역인 지연 시간 (Latency) 격차가 직접적인 공격을 받고 있습니다.

빠른 추론 (Inference)을 위해 Cerebras 계약이나 정부 프리뷰 슬롯이 필요하지 않습니다. 당신에게 필요한 것은 좋은 알고리즘과 누구나 그것을 사용할 수 있게 하려는 의지입니다.

💡 DSpark 체크포인트는 Hugging Face에 공개되어 있습니다. DeepSpec은 GitHub에서 MIT 라이선스로 제공됩니다.

원문 출처: ComputeLeap