본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 29. 00:25

DeepSpec - deepseek-ai 컬렉션

요약

DeepSpec은 투기적 디코딩(Speculative Decoding)을 위한 초안 모델을 학습하고 평가하는 풀스택 코드베이스입니다. 데이터 준비부터 모델 구현, 평가 스크립트까지 포함하며 다양한 알고리즘과 체크포인트를 제공합니다.

핵심 포인트

  • 투기적 디코딩용 초안 모델 학습 및 평가를 위한 통합 코드베이스 제공
  • DSpark, DFlash, Eagle3 세 가지 알고리즘 지원
  • Qwen 및 Gemma 모델을 타겟으로 하는 다양한 체크포인트 공개
  • 정확한 비교를 위해 저장소의 학습 설정을 준수할 것을 권장

DeepSpec

DeepSpec은 투기적 디코딩 (Speculative Decoding)을 위한 초안 모델 (Draft Models)을 학습시키고 평가하기 위한 풀스택 코드베이스입니다. 여기에는 데이터 준비 유틸리티, 초안 모델 구현, 학습 코드 및 평가 스크립트가 포함되어 있습니다.
출시된 체크포인트 (Released Checkpoints)

아래의 체크포인트들은 논문의 표 1 (Table 1)에서 사용된 것들입니다. 각 체크포인트는 해당 타겟 모델 (Target Model)이 비사고 모드 (Non-thinking mode)에서 생성한 open-perfectblend 데이터로 학습되었으며, config/ 디렉토리 하의 해당 학습 설정의 직접적인 결과물입니다.

알고리즘 | Qwen/Qwen3-4B | Qwen/Qwen3-8B | Qwen/Qwen3-14B | google/gemma-4-12B-it

Eagle3 | deepseek-ai/eagle3_qwen3_4b_ttt7 | deepseek-ai/eagle3_qwen3_8b_ttt7 | deepseek-ai/eagle3_qwen3_14b_ttt7 | deepseek-ai/eagle3_gemma4_12b_ttt7
DFlash | deepseek-ai/dflash_qwen3_4b_block7 | deepseek-ai/dflash_qwen3_8b_block7 | deepseek-ai/dflash_qwen3_14b_block7 | deepseek-ai/dflash_gemma4_12b_block7
DSpark | deepseek-ai/dspark_qwen3_4b_block7 | deepseek-ai/dspark_qwen3_8b_block7 | deepseek-ai/dspark_qwen3_14b_block7 | deepseek-ai/dspark_gemma4_12b_block7

중요 사항 (Important)

만약 새로운 논문에서 이 결과들을 인용한다면, 귀하의 설정(setup)을 이 저장소(repository)의 학습 설정과 일치시키십시오. 그렇지 않으면 비교가 의미가 없습니다. 특정 도메인에 사용하려면, 특히 타겟 모델이 사고 모드 (Thinking mode)로 실행될 것으로 예상되는 경우, 더 나은 결과를 위해 초안 모델을 다시 미세 조정 (Fine-tune)하십시오.
지원되는 알고리즘 (Supported Algorithms)

현재 DeepSpec은 세 가지 초안 모델을 포함하고 있습니다: DSpark, DFlash 및 Eagle3.
HuggingFace : https://huggingface.co/collections/deepseek-ai/deepspec
GitHub : https://github.com/deepseek-ai/DeepSpec
제출자: /u/pmttyji
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0