MTP 전용 GGUF 서브셋: Qwen3.5/3.6
요약
Qwen3.5/3.6 모델의 토큰 생성 속도를 높이기 위해 MTP(Multi-Token Prediction) 텐서만을 포함한 GGUF 서브셋을 공개했습니다. 이 모델들은 특정 모델의 성능 가속화나 MTP 텐서 이식(grafting) 실험을 목적으로 설계되었습니다.
핵심 포인트
- Qwen3.5/3.6 기반 MTP 전용 GGUF 서브셋 공개
- MTP 텐서 이식을 통한 토큰 생성 속도 가속화 지원
- llama.cpp의 draft 모델 방식 및 텐서 접목 실험용으로 활용 가능
- Qwen 기반 파인튜닝 실험의 편의성 증대 목적
이것들은 Qwen3.5/3.6 Middle/Large (27B 이상) 모델의 MTP 전용 GGUF 서브셋입니다 (MTP 텐서가 없는 Qwen 기반 모델의 토큰 생성 속도를 가속화하기 위함입니다).
하지만 이것들이 다양한 Qwen3.5/3.6 기반 파인튜닝 (fine-tunes) 실험에 도움이 되기를 바랍니다.
제가 원래 이 MTP 전용 서브셋 중 일부를 만든 이유는 trohrbaugh/Qwen3.5-122B-A10B-heretic (자체 변환 버전)의 토큰 생성을 가속화하기 위해서였지만, 이것들을 게시한 주된 이유는 Ornith-1.0-35B 때문입니다.
Qwen3.5/3.6의 MTP 텐서가 기존 GGUF 파일 내에 어떻게 임베딩(embedded)될 수 있는지(그리고 이를 어떻게 쉽게 만드는지) 정확히 보여주기 위해,
최근 저는 Ornith-1.0-35B 양자화 모델 중 하나가 Qwopus3.6-35B-A3B에서 가져온 것이라고 명시하며 MTP 텐서를 임베딩하고 있다는 것을 발견했습니다... 그리고 그들의 MTP 텐서는 단지 오리지널 Qwen의 것입니다.
이중 용도(1. 별도의 초안 모델 파일 / 2. 접목(grafting)을 위한 모델 파일)를 가진 MTP 전용 모델을 사용할 수 있도록 하기 위해,
일부 MTP 전용 서브셋(GGUF 형식)은 크기가 작지만 오직 접목(즉, MTP 관련 텐서를 이식하는 것)만을 위한 것이며, 별도의 초안 모델 파일(llama.cpp가 지원하는 방식; llama-server의 --model-draft)로 사용할 수는 없습니다. 테스트하기 쉬운 모델 파일들을 게시함으로써 Qwen3.5/3.6 기반 파인튜닝 실험이 더 쉬워지기를 바랍니다.
누군가에게 도움이 되기를 바랍니다.
submitted by /u/a4lg
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기