
DeepSeek가 DSpark를 오픈소스로 공개했습니다!
요약
DeepSeek가 추론 최적화를 위한 투기적 디코딩(Speculative Decoding) 프레임워크인 DSpark를 오픈소스로 공개했습니다. 병렬 백본과 순차적 헤드를 혼합하고 신뢰도 스케줄링을 도입하여 GPU 자원 낭비를 줄였습니다. 이를 통해 DeepSeek-V4 환경에서 생성 속도를 최대 85% 향상시켰습니다.
핵심 포인트
- DSpark는 투기적 디코딩의 예측 오류로 인한 GPU 자원 낭비를 해결함
- 마르코프 헤드를 통해 이전 토큰을 바탕으로 예측 성능 저하를 방지
- 신뢰도 스케줄링과 부하 인식 스케줄러로 효율적인 토큰 검증 수행
- DeepSeek-V4 프로덕션 환경에서 처리량을 최대 5배까지 향상
여러분, DeepSeek가 DSpark를 오픈소스로 공개했습니다!
새로운 모델이 아니라, 추론 최적화(Inference Optimization)를 위한 투기적 디코딩(Speculative Decoding) 프레임워크입니다.
핵심 문제: 전통적인 투기적 디코딩(Speculative Decoding)에서는 작은 초안 모델(Draft Model)이 먼저 일련의 토큰(Token)을 예측하면, 대형 모델(Large Model)이 이를 한 번에 검증합니다.
문제는 뒤로 갈수록 예측이 틀릴 확률이 높아지며, 잘못 예측된 부분을 검증하는 과정에서 GPU 연산 자원이 낭비된다는 점입니다.
DSpark의 해결책:
- 병렬 백본(Backbone) + 순차적 헤드(Head) 혼합.
순수 병렬 예측은 속도는 빠르지만, 각 위치에서 예측할 때 앞선 단계에서 실제로 무엇이 샘플링되었는지 알 수 없기 때문에 뒤로 갈수록 성능이 저하됩니다.
DSpark는 작은 마르코프 헤드(Markov Head)를 추가하여, 이전 토큰을 바탕으로 현재의 예측을 조정함으로써 후속 토큰의 성능 저하 문제를 해결했습니다.
- 신뢰도 스케줄링(Confidence Scheduling).
각 초안 토큰(Draft Token)의 생존 확률을 추정하는 신뢰도 헤드(Confidence Head)를 추가했습니다. 여기에 부하 인식 스케줄러(Load-aware Scheduler)를 결합하여, GPU가 유휴 상태일 때는 더 많은 토큰을 검증하고, 바쁠 때는 적게 검증하도록 합니다. 모든 예측 토큰을 검사하는 것이 아니라, 정답일 가능성이 높은 부분만 검사하는 방식입니다.
효과: DeepSeek-V4 프로덕션 환경에서 단일 사용자 생성 속도가 MTP-1 베이스라인 대비 60-85% 더 빠릅니다.
시나리오에 따라 처리량(Throughput)이 1.5배에서 5배까지 향상됩니다.
오픈소스 내용:
- 모델 체크포인트(Model Checkpoint):
DeepSeek-V4-Pro-DSpark및DeepSeek-V4-Flash-DSpark. 기존 V4 가중치를 재사용하며 초안 모듈(Draft Module)이 추가됨 - 학습 코드: MIT 라이선스의 DeepSpec 코드 저장소
- 베이징 대학교(Peking University)와 공동 개발
중요한 이유: 투기적 디코딩은 그동안 "이론적으로는 좋지만 실전 적용은 어렵다"고 여겨져 왔습니다.
DSpark는 실제 프로덕션 시스템에서 투기적 디코딩이 출력 품질에 영향을 주지 않으면서도 안정적으로 60% 이상의 속도 향상을 이끌어낼 수 있음을 증명했습니다.
DeepSeek는 이미 프로덕션 환경에 배포되었습니다.
[IMG:https://pbs.twimg.com/media/HL6ZOReb0AAkI7L.jpg]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기