Jackrong/Qwopus3.6-27B-Coder-MTP
요약
Qwopus3.6-27B-Coder-MTP 모델의 성능을 벤치마킹한 결과입니다. MTP Speculative Decoding 기술을 적용했을 때 토큰 생성 속도가 약 2.07배 향상됨을 확인했습니다.
핵심 포인트
- Qwopus3.6-27B-Coder-MTP 모델의 벤치마크 수행
- MTP 적용 시 토큰 생성 속도 60.9 t/s에서 119.0 t/s로 향상
- MTP 가속 효과가 모델 카드 명시 범위(1.66x-2x)와 일치함
코딩 전용 모델이 나온 지 꽤 되었네요. 코딩 흐름에서 사용해 보기 전에 최적의 설정을 찾기 위해 표준 파라미터 벤치마킹을 계속하고 있습니다.
초기 벤치마크
벤치마크 결과 — Qwopus3.6-27B-Coder-MTP Q6_K
표준 디코딩 (MTP 미사용) — llama-bench를 통해 | 지표 (Metric) | 속도 (Speed) |
|---------------------------|-----------|
| 프롬프트 처리 (Prompt Processing, pp512) | 2,742 t/s | |
| 토큰 생성 (Token Generation, tg256) | 60.9 t/s |
MTP Speculative Decoding 사용 시 — llama-cli를 통해
| 지표 (Metric) | 속도 (Speed) |
|---|---|
| 프롬프트 처리 (Prompt Processing) | 164.5 t/s |
| 토큰 생성 (Token Generation) | 119.0 t/s |
MTP 가속: ~2.07배 (60.9 → 119.0 t/s). 모델 카드에 명시된 ~1.66x-2x 범위와 일치합니다.
[Qwopus3.6-27B-Coder-MTP-Q6] 모델 = /mnt/storage/models/qwen3.6/Qwopus3.6-27B-Coder-MTP-Q6_K.gguf mmproj = /mnt/storage/models/qwen3.6/mmproj-F32.gguf ctx-size = 32768 ngl = 99 fa = on flash-attn = true draft-mtp = true ctk = q8_0 ctv = q8_0
제출자: /u/giveen
[링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기