r/LocalLLaMA분석2026. 06. 29. 03:50

Ornith-1.0-35B GGUF 업데이트: 네이티브 MTP 투기적 디코딩 (speculative-decode) 접목 + 전체

요약

Ornith-1.0-35B GGUF 모델에 네이티브 MTP(Multi-Token Prediction) 투기적 디코딩 기술을 접목하여 추론 성능을 개선했습니다. IQ4_XS 양자화 모델에 MTP 헤드를 결합하여 단일 스트림 디코딩 속도를 약 1.3~1.35배 향상시켰으며, 높은 모델 충실도를 유지합니다.

핵심 포인트

MTP 접목을 통해 단일 스트림 디코딩 속도 1.3~1.35배 향상
IQ4_XS-MTP 모델이 기존 Q4_K_M보다 우수한 KLD 성능 기록
llama.cpp 환경 및 단일 GPU(RTX PRO 6000) 최적화 테스트 완료
긴 문맥(32k)에서도 효율적인 프리필(prefill) 속도 제공

이전의 Ornith-1.0-35B Q3_K_M 게시물에 대한 후속 글입니다.

단일 GPU, llama.cpp 환경에서 자기 투기적 디코딩 (self-speculative decode)을 위해 IQ4_XS 바디에 네이티브 MTP 초안 헤드 (draft head, 헤드는 Q6 수준)를 접목했습니다:

1.3-1.35배 단일 스트림 디코딩 (172.6 -> 233.8 tok/s).
다음 토큰 분포 (Next-token distribution)는 타겟 전용 (target-only) 모델과 바이트 단위로 동일합니다 (KLD 0.0, 32/32).
BF16 KLD 0.073 — Q4_K_M보다 약간 더 좋습니다.
문제점: 긴 결정론적 생성 (long deterministic gens) 과정에서 타겟 전용 모델과 비트 단위로 완전히 일치하지는 않습니다 (8회 중 6회 일치, 93.4% 토큰 일치).

KLD 계층에서의 위치 (BF16 대비 상위 64개 다음 토큰 KL, 낮을수록 좋음):

양자화 (Quant)	평균 KLD (Mean KLD)	Top-1 크기 (Top-1 Size)
Q8_0	0.011	96.9% 36.9 GB
Q6_K	0.017	100.0% 28.5 GB
Q5_K_M	0.035	93.8% 24.7 GB
IQ4_XS-MTP 접목 (신규)	0.073	90.6% ~19.6 GB
Q4_K_M	0.086	90.6% 21.2 GB
IQ4_XS	0.143	84.4% 18.9 GB
Q3_K_M	0.362	84.4% 16.8 GB

충실도 계층 차트 (Fidelity ladder chart)

카드에 추가한 성능 수치:

6개 양자화 모델 모두에 대한 동시성 (concurrency) 대비 처리량 (Throughput) + p95 TTFT (Q4_K_M ~243 tok/s @c1 -> ~656 tok/s @c16, p95 TTFT ~76 ms @c1).
단일 스트림 긴 문맥 (Long-context) TTFT: 프리필 (prefill)은 512 토큰에서 94 ms -> 32k 토큰에서 ~6.3 s로 확장됩니다 (IQ4_XS 바디와 접목된 헤드의 프리필이 모든 길이에서 Q4_K_M보다 약간 더 빠릅니다).

참고 사항:

Q4/Q5/Q6/Q8은 제가 미러링하고 재검증한 업스트림 결과물이며, Q3_K_M, IQ4_XS, 그리고 MTP 접목 모델은 로컬에서 생성되었습니다. REASONING=off는 여전히 고정된 서빙 기본값입니다 (지난 게시물의 추론 모드 버그 때문).
단일 워크스테이션 GPU (RTX PRO 6000 Blackwell 96 GB), tp=1로만 테스트되었습니다.

🔗 https://huggingface.co/LordNeel/Ornith-1.0-35B-GGUF-llamacpp-tp1
https://preview.redd.it/4kljd5aci2ah1.png?width=1800&format=png&auto=webp&s=f71b72f3fd40f3c64004c1910eb97304c98dcbc6
https://preview.redd.it/i7nro4aci2ah1.png?width=1800&format=png&auto=webp&s=65fef9870e76c5920799c884b181dc1d423bc995
https://preview.redd.it/5sdod4aci2ah1.png?width=1800&format=png&auto=webp&s=72f775e164cfa056172d705e7ff6f33e720d1380
https://preview.redd.it/cl2dw4aci2ah1.png?width=1800&format=png&auto=webp&s=690a525335066ff297666f3f6b0502a65db9c9bf
https://preview.redd.it/270cq3aci2ah1.png?width=1680&format=png&auto=webp&s=ea5944912b2f876d1daf9f36ac42fbd5ca369e68
https://preview.redd.it/0tgp54aci2ah1.png?width=2200&format=png&auto=webp&s=e2487187d455833ba41516cf0f93560c3c68a20b
https://preview.redd.it/2nuao3aci2ah1.png?width=1192&format=png&auto=webp&s=76f8b368e1c3e2b990c0545d0ba6e3c0e04f49bd
https://preview.redd.it/o1u7n3aci2ah1.png?width=1192&format=png&auto=webp&s=14354bf5001b38159a56752c367a84da5bd47a63
submitted by /u/Blahblahblakha
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Ornith-1.0-35B GGUF 업데이트: 네이티브 MTP 투기적 디코딩 (speculative-decode) 접목 + 전체

요약

핵심 포인트

댓글