MTP 전용 GGUF 서브셋: Qwen3.5/3.6

이것들은 Qwen3.5/3.6 Middle/Large (27B 이상) 모델의 MTP 전용 GGUF 서브셋입니다 (MTP 텐서가 없는 Qwen 기반 모델의 토큰 생성 속도를 가속화하기 위함입니다).
하지만 이것들이 다양한 Qwen3.5/3.6 기반 파인튜닝 (fine-tunes) 실험에 도움이 되기를 바랍니다.
제가 원래 이 MTP 전용 서브셋 중 일부를 만든 이유는 trohrbaugh/Qwen3.5-122B-A10B-heretic (자체 변환 버전)의 토큰 생성을 가속화하기 위해서였지만, 이것들을 게시한 주된 이유는 Ornith-1.0-35B 때문입니다.

Qwen3.5/3.6의 MTP 텐서가 기존 GGUF 파일 내에 어떻게 임베딩(embedded)될 수 있는지(그리고 이를 어떻게 쉽게 만드는지) 정확히 보여주기 위해,
최근 저는 Ornith-1.0-35B 양자화 모델 중 하나가 Qwopus3.6-35B-A3B에서 가져온 것이라고 명시하며 MTP 텐서를 임베딩하고 있다는 것을 발견했습니다... 그리고 그들의 MTP 텐서는 단지 오리지널 Qwen의 것입니다.
이중 용도(1. 별도의 초안 모델 파일 / 2. 접목(grafting)을 위한 모델 파일)를 가진 MTP 전용 모델을 사용할 수 있도록 하기 위해,
일부 MTP 전용 서브셋(GGUF 형식)은 크기가 작지만 오직 접목(즉, MTP 관련 텐서를 이식하는 것)만을 위한 것이며, 별도의 초안 모델 파일(llama.cpp가 지원하는 방식; llama-server의 --model-draft)로 사용할 수는 없습니다. 테스트하기 쉬운 모델 파일들을 게시함으로써 Qwen3.5/3.6 기반 파인튜닝 실험이 더 쉬워지기를 바랍니다.

누군가에게 도움이 되기를 바랍니다.
submitted by /u/a4lg
[link] [comments]

Insights

MTP 전용 GGUF 서브셋: Qwen3.5/3.6

요약

핵심 포인트

댓글

AI 보조 개발을 덜 혼란스럽게 만들기 위해 일주일간 시도한 것들

Qwen 3.6 27B Speculative Decoding 벤치마크: 단일 RTX 3090에서 약 100 TPS 달성

AI 에이전트가 도구를 잘 사용하지 못하는 이유는 모델 때문이 아니라 '도구함'이 허술하기 때문일지도 모릅니다 — Function

GLM 5.2가 실제로 프로덕션급인가요? 실제 다중 파일 컴퓨터 비전 구현 작업에서의 테스트 결과

Qwen 3.6 27B Speculative Decoding 벤치마크: 단일 RTX 3090에서 약 100 TPS 달성

AI 에이전트가 도구를 잘 사용하지 못하는 이유는 모델 때문이 아니라 '도구함'이 허술하기 때문일지도 모릅니다 — Function

GLM 5.2가 실제로 프로덕션급인가요? 실제 다중 파일 컴퓨터 비전 구현 작업에서의 테스트 결과