DeepSeek, V4 추론 속도를 최대 400%까지 높이는 DSpark 출시

DeepSeek의 DSpark가 오픈 모델 생태계를 다시 한번 뒤흔들었습니다. 이 중국 기업은 베이스 모델의 가중치(weights)를 수정하지 않고도 DeepSeek-V4 Flash 및 Pro 모델의 추론(inference) 속도를 부하에 따라 51%에서 400%까지 가속화하는 투기적 디코딩(speculative decoding) 모듈을 발표했습니다. 이 모듈과 함께 드래프트 모델(draft models)을 훈련하고 평가하기 위한 전체 코드베이스인 DeepSpec을 GitHub에 공개했습니다.

이를 설명하는 논문은 Liang Wenfeng의 서명과 함께 회사의 첫 번째 펀딩 라운드 직후에 발표되었습니다. 이것이 무엇인지, 어떻게 작동하는지, 그리고 프로덕션 환경에서 언어 모델을 서비스하는 모든 이들에게 왜 중요한지 설명해 드리겠습니다.

TL;DR

DeepSeek는 DeepSeek-V4 Flash 및 Pro를 위한 준-자기회귀적(semi-autoregressive) 투기적 디코딩인 DSpark를 공개했습니다.
작업 및 배치 크기(batch size)에 따라 지연 시간(latency)이 감소하며 성능이 51%에서 400%까지 향상됩니다.
DSpark는 무거운 병렬 헤드(DFlash 스타일)와 가벼운 순차적 헤드(Eagle 스타일)를 결합합니다.
Eagle3 및 DFlash 대비 수락 길이(acceptance length)가 16.3%에서 30.9% 사이로 증가합니다.
훈련 및 평가를 위한 코드베이스인 DeepSpec은 MIT 라이선스의 오픈 소스입니다.
DSpark, DFlash, Eagle3의 세 가지 드래프트 모델을 포함하며, 타겟으로 Qwen3 및 Gemma를 지원합니다.
기본 설정에서 타겟 모델의 캐시(cache)를 준비하는 데 약 38TB가 소요될 수 있습니다.
V4-Pro-DSpark 체크포인트는 새로운 모델이 아니라 투기적 모듈이 부착된 동일한 모델입니다.

무슨 일이 일어났나

DeepSeek는 기술 보고서에서 _"준-자기회귀 생성(Semi-Autoregressive Generation)을 통한 신뢰도 스케줄링 투기적 디코딩(Confidence-Scheduled Speculative Decoding)"_이라고 설명된 DSpark의 출시를 발표했습니다. 이것은 새로운 모델이 아닙니다. 기존 DeepSeek-V4 체크포인트에 결합되어 텍스트를 더 빠르게 생성하도록 하는 모듈입니다. Hugging Face의 모델 카드에서도 이를 명확히 밝히고 있습니다: "DeepSeek-V4-Pro-DSpark는 새로운 모델이 아닙니다. 투기적 디코딩 모듈이 부착된 동일한 체크포인트입니다."

커뮤니티에서 가장 큰 반향을 일으킨 제스처는 두 번째였습니다. 개선된 체크포인트 (checkpoints)를 공개했을 뿐만 아니라, DeepSeek는 저자들이 _"투기적 디코딩 (speculative decoding) 알고리즘을 훈련하고 평가하기 위한 풀스택 코드베이스 (full-stack codebase)"_라고 설명한 DeepSpec을 공개했습니다. 즉, 결과물만 전달한 것이 아니라 이를 재현하고 자신만의 것을 구축할 수 있는 공장까지 제공한 것입니다. 해당 리포지토리 (repository)는 생태계에서 가장 허용 범위가 넓은 MIT 라이선스로 제공됩니다.

DeepSeek의 DSpark가 왜 이토록 큰 화제를 모으는지 이해하려면, 먼저 이 기술이 해결하고자 하는 문제, 즉 거대 언어 모델 (LLM)이 텍스트를 생성할 때 발생하는 고유한 느린 속도 문제를 짚어볼 필요가 있습니다.

토큰 단위의 순차적 추론 (sequential token-to-token inference)은 DSpark가 해결하려는 병목 현상 (bottleneck)입니다.

투기적 디코딩 (Speculative Decoding)이란 무엇인가

언어 모델은 한 번에 하나의 토큰씩 텍스트를 생성합니다. 각 단어를 생성하기 위해 신경망 (neural network)을 전체적으로 한 번 실행해야 하며, 이전의 모든 컨텍스트 (context)를 읽은 후에야 비로소 다음 토큰을 예측할 수 있습니다. 이 과정은 엄격하게 순차적입니다. 즉, 50번째 토큰은 49번째 토큰이 계산되기 전에는 계산될 수 없습니다. 실제로 이는 매우 비싼 GPU가 연산 능력 (computing capacity)보다는 메모리 대역폭 (memory bandwidth)의 제한으로 인해 대부분의 시간을 대기하며 보내게 된다는 것을 의미합니다.

투기적 디코딩 (speculative decoding)은 최종 결과물을 바꾸지 않으면서 이 한계를 깨뜨리는 우아한 기법입니다. 핵심 아이디어는 다음과 같습니다. 드래프트 모델 (draft model) 또는 초안 모델이라고 불리는 작고 빠른 모델을 사용하여 여러 개의 토큰을 한꺼번에 _추측_하는 것입니다. 그 후, 크고 비싼 모델인 **타겟 모델 (target model)**이 단 한 번의 병렬 실행을 통해 그 모든 추측을 검증합니다. 검증하는 작업은 하나씩 생성하는 것보다 훨씬 비용이 적게 들기 때문에, 추측이 정확하다면 단 한 번의 실행 비용으로 여러 개의 토큰을 얻을 수 있습니다.

💭 핵심: 투기적 디코딩은 거대 모델의 출력을 절대 변경하지 않습니다. 초안 모델이 맞히면 속도를 얻고, 틀리면 제안을 단순히 폐기하고 계속 진행합니다. 텍스트의 품질은 일반적인 생성 방식과 동일합니다.

가장 적절한 비유는 다음과 같습니다: 숙련된 작가(대상 모델, target model)와 빠른 학습자(초안 모델, draft model)를 상상해 보세요. 학습자는 다음 다섯 단어를 한 번에 초안으로 작성합니다. 전문가는 이 단어들을 한꺼번에 읽고 학습자가 어디에서 틀렸는지 표시합니다. 올바른 접두사(prefix)는 수용하고, 첫 번째 오류가 발생한 지점부터 수정합니다. 전문가는 단어 하나하나를 받아쓰는 대신 블록(blocks) 단위로 검증합니다. 이제 병목 현상은 생성 속도가 아니라 학습자가 연속으로 얼마나 많은 단어를 맞히느냐의 문제로 바뀌며, 이는 **수용 길이 (acceptance length)**로 측정됩니다.

DeepSeek의 DSpark 작동 원리

기존의 최첨단 (state-of-the-art) 기술에는 두 가지 유형의 초안 모델 계열이 있었습니다. 한쪽에는 Eagle 유형의 방법론이 있는데, 이는 초안을 순차적 (자기회귀적, autoregressive) 방식으로 생성합니다. 즉, 토큰 하나를 예측하고 이를 다시 입력으로 넣어 다음 토큰을 예측하는 방식입니다. 이 방식은 매우 일관된 초안을 만들어내지만 생성 속도가 느립니다. 다른 한쪽에는 DFlash 유형 및 다중 토큰 예측 (multi-token prediction, MTP) 방식이 있는데, 이는 여러 토큰을 한 번에 병렬로 발사합니다. 초안 생성 속도는 매우 빠르지만, 각 토큰이 인접 토큰을 확인하지 않은 채 예측되기 때문에 초안의 일관성이 떨어지고 대상 모델이 거부하는 경우가 더 많습니다.

DSpark는 저자들이 **준-자기회귀 생성 (semi-autoregressive generation)**이라 부르는 중간 지점을 제안합니다. 이는 무거운 병렬 헤드 (DFlash 스타일로, 여러 토큰을 한 번에 제안)와 그 뒤를 잇는 작은 마르코프 순차 헤드 (Eagle 스타일로, 국소적 의존성을 확인하며 시퀀스를 다듬음)를 결합한 형태입니다. 그 결과, 병렬 방식만큼 빠르게 생성되면서도 순차 방식의 일관성을 갖춘 초안이 만들어지며, 이는 수용률 (acceptance rate)을 급격히 높입니다.

graph LR
  A["DSpark 초안 모델"] -->|"k개 토큰 제안"| B["V4 대상 모델"]
  B -->|"병렬 검증"| C{"접두사 수용 여부?"}
...

두 번째 혁신은 **신뢰도 기반 스케줄링 검증 (confidence-scheduled validation)**입니다. DSpark는 항상 동일한 양의 토큰을 제안하는 대신, 모델의 신뢰도에 따라 초안(draft)의 공격성을 조정합니다. 텍스트를 예측할 수 있을 때는 더 많은 토큰을 시도하며, 불확실할 때는 보수적으로 접근합니다. 이를 통해 검증을 기다리는 동안 하드웨어가 유휴 상태가 되는 GPU의 스톨 (stalls) 현상을 줄여줍니다.

직관적인 이해를 돕기 위해, 단순화된 Python 형태의 투기적 디코딩 (speculative decoding) 루프는 다음과 같습니다:

def decodificacion_especulativa(draft, objetivo, prompt, k=5):
    tokens = list(prompt)
    while not termino(tokens):
...

마법의 숫자는 aceptados (수용된 토큰 수)입니다. 이 평균값이 높을수록 모든 과정이 빨라집니다. 바로 이 지점에서 DSpark는 경쟁 모델들과 차별화됩니다.

DSpark는 수용 길이 (acceptance length)를 높이며, 이에 따라 전체 성능도 향상됩니다.

데이터 및 수치

DeepSeek가 보고한 수치들은 왜 이 기술이 화제인지 입증해 줍니다. 기업에 따르면, 추론 성능은 작업 및 배치 크기 (batch size)에 따라 **51%에서 400%**까지 향상되며 지연 시간 (latency)은 감소합니다. 여러 매체는 일반적인 사용 사례에서 전형적인 개선 폭을 약 80%~85%로 추산한 반면, 400%의 정점은 투기적 디코딩 (speculation)에 특히 유리한 시나리오에서 나타납니다.

직접적인 경쟁 모델들과 비교했을 때, DSpark는 Eagle3 및 DFlash 대비 수용 길이를 16.3%에서 30.9%까지 높입니다. 이 지표가 실제로 중요한 이유는, 검증당 수용되는 토큰이 20% 늘어나면 대상 모델 (target model)의 패스 (pass) 횟수가 거의 선형적으로 줄어들고, 결과적으로 생성된 토큰당 비용이 감소하기 때문입니다.

📌 참고: 베이스 모델인 DeepSeek-V4는 그 자체로 이미 효율적이었습니다. DeepSeek에 따르면, 이 모델의 하이브리드 어텐션 (hybrid attention)과 100만 토큰의 컨텍스트 (context)는 V3.2 대비 토큰당 추론 FLOPs는 27%, KV 캐시 (KV cache)는 10%만을 요구합니다. DSpark는 이 기반 위에 구축되어 속도를 더욱 극한으로 끌어올립니다.

반대 급부는 훈련 요구 사항에 있습니다. 드래프트 모델 (draft model)을 훈련하기 전 단계인 타겟 모델 (target model)의 캐시를 준비하는 과정은 Qwen3-4B의 기본 설정 기준으로 약 38 TB의 저장 공간을 차지할 수 있습니다. 표준 설정은 또한 8개의 GPU가 장착된 노드를 가정합니다. 이는 노트북에서 훈련할 수 있는 프로젝트는 아니지만, 이미 훈련된 체크포인트 (checkpoints)를 사용하는 것은 괜찮은 GPU를 가진 사람이라면 누구나 가능합니다.

DeepSpec: 오픈 소스 코드베이스

DeepSpec은 가장 오랫동안 지속될 기여입니다. 이는 드래프트 모델의 생명 주기 세 단계를 모두 아우르는 완전한 프레임워크입니다: 데이터 준비 (프롬프트 다운로드, 타겟 모델의 응답 재생성 및 캐시 구축), 해당 출력값에 대한 드래프트 모델 훈련, 그리고 벤치마크 (benchmarks)를 통한 평가입니다. DSpark, DFlash, Eagle3의 세 가지 알고리즘 구현을 모두 포함하고 있어 직접 서로 비교해 볼 수 있습니다.

평가는 수학적 추론과 코드 생성을 아우르는 9개의 데이터셋을 다룹니다: gsm8k, math500, aime25, humaneval, mbpp, livecodebench, mt-bench, alpaca, 그리고 arena-hard-v2입니다. 기본적으로 지원되는 타겟 모델로는 Qwen3 및 Gemma 제품군이 포함되어 있으며, 이는 이 기술이 DeepSeek 모델에만 국한되지 않음을 확인시켜 줍니다.

클론 (clone) 및 환경 준비는 간단합니다. 여기 세 가지 운영 체제에 대한 명령어가 있습니다:

# Linux 및 macOS
git clone https://github.com/deepseek-ai/DeepSpec.git
cd DeepSpec
...

# Windows (PowerShell)
git clone https://github.com/deepseek-ai/DeepSpec.git
cd DeepSpec
...

설치가 완료되면 워크플로 (workflow)는 세 개의 스크립트를 순서대로 따릅니다. 먼저 데이터 준비 (타겟 모델을 서빙하는 추론 엔진이 필요합니다), 그다음 훈련, 마지막으로 평가입니다:

# 1. 데이터 및 타겟 모델 캐시 준비 (디스크 용량 주의!)
#    타겟 모델을 서빙하려면 data README를 참조하세요

...

⚠️ 주의: 데이터 준비를 시작하기 전에 디스크 공간을 확인하세요. 기본 캐시로 설정된 약 38TB는 몇 분 만에 저장 공간을 가득 채울 수 있습니다. 실험을 위해서는 설정에서 프롬프트(prompts)의 양을 줄이거나 더 작은 타겟 모델(target model)을 사용하세요.

DeepSpec은 이전 작업들에 대한 부채를 인정합니다. 이 프로젝트는 SpecForge (Apache-2.0) 및 DFlash의 원본 구현 (MIT)과 같은 프로젝트를 기반으로 구축되었으며, 해당 기여는 저장소(repository)의 NOTICE 파일에 문서화되어 있습니다. 이는 AI 오픈 소스 (open source) 생태계가 축적을 통해 어떻게 발전하는지를 보여주는 사례입니다.

영향 및 분석

프로덕션 환경에서 모델을 운영하는 사람들에게 DeepSeek의 DSpark는 가장 뼈아픈 지표인 토큰당 비용(cost per token)과 응답 지연 시간(latency)을 직접적으로 공략합니다. 성능이 50%에서 80% 향상된다는 것은 동일한 GPU 플릿(fleet)으로 두 배의 사용자를 서비스하거나, 추론(inference) 비용을 절반으로 줄일 수 있음을 의미합니다. AI 컴퓨팅 자원이 부족하고 비싼 상황에서, 이는 품질 벤치마크(benchmark)의 몇 점 차이보다 더 큰 비중을 차지합니다.

최첨단 하드웨어에 대한 접근이 제한적이고 달러 예산이 타이트한 라틴 아메리카(LATAM) 지역의 경우, 투기적 디코딩(speculative decoding)은 특히 유의미합니다. 이는 클라우드에서 대여한 각 GPU의 효율을 극대화할 수 있게 해주며, 인프라를 두 배로 늘리지 않고도 수용 가능한 지연 시간 내에 대규모 모델을 실행할 수 있게 합니다. 또한 DSpark는 모델의 가중치(weights)를 건드리지 않기 때문에, 속도를 얻기 위해 품질을 포기할 필요가 없습니다.

DeepSeek의 전략적 움직임 또한 주목할 만합니다. DeepSpec을 MIT 라이선스로 공개하고 Qwen 및 Gemma를 통해 기술을 입증함으로써, 이 기업은 단순히 자사의 모델을 가속화하는 데 그치지 않습니다. 전체 오픈 소스 생태계를 밀어붙이는 동시에, 단순한 가중치 제공자가 아닌 도구를 제공하는 주체로서의 명성을 공고히 하고 있습니다. 이는 많은 AI 출시가 실체보다 광고에 치중하고 있는 시점에 기술적 신뢰도를 높이는 전략적 행보입니다.

향후 계획

다음 자연스러운 단계는 추측 디코딩 (Speculative Decoding)이 이미 일급 시민 (first-class citizen)으로 다뤄지고 있는 vLLM, SGLang, TensorRT-LLM과 같은 인기 있는 추론 엔진 (inference engines)에 DSpark를 통합하는 것입니다. 이러한 통합이 성숙해짐에 따라, 많은 팀에게 DSpark를 활성화하는 것은 설정 플래그 (configuration flag) 하나를 조정하는 문제가 될 것입니다.

또한, 가변적인 배치 크기 (batch size)와 이질적인 프롬프트 (heterogeneous prompts)가 실험실에서 측정된 수락률 (acceptance rates)을 변화시킬 수 있는 더 큰 타겟 모델 및 실제 프로덕션 부하 (production workloads) 환경에서 이 기술이 어떻게 작동하는지도 지켜봐야 합니다. 커뮤니티는 이미 Qwen 및 Gemma를 대상으로 결과를 재현하기 시작했으며, 이러한 독립적인 보고들이 진정한 시험대가 될 것입니다. 현재로서는 DeepSeek의 DSpark가 언어 모델의 추론 비용을 절감하기 위한 올해의 가장 실용적인 기여 중 하나로 자리매김하고 있습니다.

📖 Telegram 요약: 요약 보기