Qwen을 위한 Eagle(3)가 착륙했습니다
요약
Qwen 모델을 위한 Eagle(3) 투기적 디코딩(Speculative Decoding) 기능이 새롭게 출시되었습니다. 사용자는 드래프트 모델을 지정하여 초당 토큰 수(TPS)를 향상시킬 수 있으나, 현재 텐서 병렬화 미지원 및 VRAM 점유 등의 제약 사항이 존재합니다.
핵심 포인트
- Eagle(3)를 통한 투기적 디코딩 활성화 가능
- draft-mtp와 유사한 수준의 TPS 성능 제공
- 현재 텐서 병렬화(Tensor Parallelism) 미지원으로 인한 오류 발생 가능
- 드래프트 모델 사용 시 추가적인 VRAM 점유 발생
- 여러 유형의 투기적 디코딩 중첩 사용 가능
최신 릴리스에서 사용 가능합니다. 다음을 통해 활성화할 수 있습니다:
--spec-type draft-eagle3
드래프트 모델 (draft model)을 입력해야 합니다. 현재 unsloth + eagle 조합에 문제가 있어, 저는 개인적으로 다음 모델들로 테스트했습니다:
모델: https://huggingface.co/lmstudio-community/Qwen3.6-27B-GGUF
드래프트: https://huggingface.co/wimmmm/Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF
-md 또는 --model-draft 옵션으로 드래프트 모델을 지정하세요.
성능 측면에서는 현재 draft-mtp와 매우 유사한 tps (초당 토큰 수)를 얻고 있습니다. 또한 텐서 병렬화 (tensor parallelism)가 현재 지원되지 않아 어설션 (assert) 오류가 발생하며, 이는 제가 매우 자주 의존하는 기능입니다. 드래프트 모델은 VRAM도 약간 점유하므로, 자원이 매우 제한적인 환경에서는 최선의 선택이 아닐 수 있습니다. 시간이 지나면서 이 기능이 어떻게 발전할지 기대됩니다!
여러 유형의 투기적 디코딩 (speculative decoding)을 중첩해서 사용할 수 있다는 점도 잊지 마세요:
--spec-type draft-eagle3,ngram-mod
제출자: /u/Legitimate-Dog5690
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기