본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 03:51

Jackrong/Qwopus3.6-27B-Coder-MTP

요약

Qwopus3.6-27B-Coder-MTP 모델의 성능을 벤치마킹한 결과입니다. MTP Speculative Decoding 기술을 적용했을 때 토큰 생성 속도가 약 2.07배 향상됨을 확인했습니다.

핵심 포인트

  • Qwopus3.6-27B-Coder-MTP 모델의 벤치마크 수행
  • MTP 적용 시 토큰 생성 속도 60.9 t/s에서 119.0 t/s로 향상
  • MTP 가속 효과가 모델 카드 명시 범위(1.66x-2x)와 일치함

코딩 전용 모델이 나온 지 꽤 되었네요. 코딩 흐름에서 사용해 보기 전에 최적의 설정을 찾기 위해 표준 파라미터 벤치마킹을 계속하고 있습니다.

초기 벤치마크
벤치마크 결과 — Qwopus3.6-27B-Coder-MTP Q6_K
표준 디코딩 (MTP 미사용) — llama-bench를 통해 | 지표 (Metric) | 속도 (Speed) |
|---------------------------|-----------|
| 프롬프트 처리 (Prompt Processing, pp512) | 2,742 t/s | |
| 토큰 생성 (Token Generation, tg256) | 60.9 t/s |

MTP Speculative Decoding 사용 시 — llama-cli를 통해

지표 (Metric)속도 (Speed)
프롬프트 처리 (Prompt Processing)164.5 t/s
토큰 생성 (Token Generation)119.0 t/s

MTP 가속: ~2.07배 (60.9 → 119.0 t/s). 모델 카드에 명시된 ~1.66x-2x 범위와 일치합니다.
[Qwopus3.6-27B-Coder-MTP-Q6] 모델 = /mnt/storage/models/qwen3.6/Qwopus3.6-27B-Coder-MTP-Q6_K.gguf mmproj = /mnt/storage/models/qwen3.6/mmproj-F32.gguf ctx-size = 32768 ngl = 99 fa = on flash-attn = true draft-mtp = true ctk = q8_0 ctv = q8_0
제출자: /u/giveen
[링크] [댓글]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0