Qwen 3.6 35B GGUF: GPU 및 CPU 환경에서의 NTP vs MTP 양자화 (Quantization) 결과

안녕하세요 r/LocalLLaMA 여러분,

저희는 ByteShape Qwen 3.6 35B GGUF 양자화 모델을 두 가지 계열인 표준 NTP (Next Token Prediction 또는 non-MTP)와 MTP로 출시했습니다.

요약 (TL;DR)

NTP의 경우, "사용 가능한 가장 큰 양자화 모델을 선택하라"는 전략이 놀라울 정도로 잘 작동했습니다.
낮은 bpw (bits per weight)가 반드시 더 나은 것은 아니었습니다. 저희의 가장 큰 모델은 프롬프트 처리 (Prompt Processing) 및 토큰 생성 (Token Generation)을 포함하여 품질과 속도 면에서 극복하기 매우 어려웠습니다.
MTP는 보통 약 20–40% 정도의 실질적인 GPU 생성 속도 향상을 제공했지만, 추가적인 메모리 점유율 (Memory Footprint)로 인해 사용 가능한 모델이 달라질 수 있습니다.
MTP의 속도 향상은 워크로드 (Workload)에 크게 의존합니다.
저희 테스트 결과 CPU MTP는 매력적이지 않았으므로, CPU에 대한 저희의 권장 사항은 여전히 NTP입니다.
이번 출시에서는 MMLU를 제외했습니다. Qwen 3.6이 Full Precision (전정밀도) 상태에서 답변 형식 준수 문제를 보였기 때문에, 양자화 비교 신호로서 노이즈가 심할 수 있기 때문입니다.

이번 출시를 위해, 저희는 단순한 모델 공개를 넘어 일종의 소규모 하드웨어 연구에 가깝게 비교를 시도했습니다. RTX 4090, 5090, Pro 6000, 4080, 5060 Ti를 비롯하여 Intel i7, Intel Ultra 7, Ryzen 9, 그리고 Raspberry Pi 5에 걸쳐 원본 모델과 더 광범위한 양자화 변체들을 벤치마킹했습니다. 비교에 포함된 양자화 제작자(Quantizers)인 Bartowski, Unsloth, Mudler, AesSedai에게 감사를 표합니다. 저희가 모든 양자화 모델을 일일이 평가하는 데 시간을 쓴다면 여러분이 이 결과에 관심을 갖지 않을 수도 있기 때문에 (혹은 3.7 버전이 나오면 말이죠 ;), 각 제작자로부터 가장 추천되는 몇 가지 양자화 모델을 선정했습니다.

주요 NTP 결과는 다소 직관에 어긋났습니다. 보통은 더 낮은 bpw 양자화 모델이 속도 면에서 확실히 우세할 것이라고 예상합니다. 하지만 여기서는 저희가 출시한 가장 큰 변체 모델이 품질뿐만 아니라 프롬프트 처리 및 토큰 생성에서도 경쟁력을 유지하는 경우가 많았습니다. 따라서 bpw를 맹목적으로 최소화해서는 안 됩니다. 만약 더 큰 모델이 여러분의 메모리 및 컨텍스트 예산(Context Budget)에 맞다면, 그것이 여전히 더 나은 선택일 수 있습니다.

하드웨어 특이 사항, 특히 16GB 장치 및 Raspberry Pi 5에서의 예외 상황이 존재하므로, 모든 내용을 이곳에 압축하여 담기보다는 블로그에 전체 권장 사항과 그래프를 게시하였습니다.

MTP의 경우 트레이드오프 (Trade-off)가 다릅니다. GPU에서는 보통 약 20 - 40% 정도의 유의미한 생성 속도 향상을 확인했습니다 (이는 워크로드에 크게 의존하므로 직접 테스트가 필요합니다). 하지만 MTP는 런타임 메모리 (Runtime Memory) 사용량도 증가시키기 때문에, 16GB GPU에서는 저희의 컨텍스트 설정에서 더 큰 MTP 모델이 더 이상 실용적이지 않았으며, 이에 따라 GPU-2 MTP 모델을 사용 가능한 권장 모델로 선정했습니다. MTP 결과 또한 동일한 bpw (Bits Per Weight) 관찰 결과를 뒷받침합니다. 즉, 어떤 경우에는 더 큰 모델이 처리량 (Throughput) 측면에서 기본적으로 더 작은 모델을 따라잡기도 합니다.

저희 테스트에서 CPU MTP는 매력적이지 않았습니다. CPU에서는 프롬프트 처리 (Prompt Processing) 속도가 이미 느린데, MTP는 이를 더 악화시킵니다. 현재로서는 저희의 CPU 권장 사항은 NTP로 유지됩니다.

방법론 (Methodology) 참고 사항: 저희는 Qwen 3.5에서는 나타나지 않았던 Qwen 3.6에서의 답변 형식 준수 (Answer-format compliance) 문제를 발견했습니다. 여러 MMLU 사례에서, 프롬프트가 5-shot임에도 불구하고 풀 프리시전 (Full-precision) 모델이 정답은 알고 있는 듯 보이나 벤치마크에서 기대하는 엄격한 형식을 따르지 않는 현상이 나타났습니다. 이것은 양자화 아티팩트 (Quantization artifact)라기보다 베이스라인 모델 (Baseline-model) 자체의 동작이었기에, 이번 릴리스의 벤치마킹에서는 MMLU를 제외했습니다.

따라서, 중요한 요점은 다음과 같습니다:

이 모델의 경우, NTP 방식에서는 "사용 가능한 가장 큰 양자화 모델을 선택하라"는 전략이 놀라울 정도로 잘 작동했습니다. MTP는 메모리 여유 공간 (Memory Headroom)이 있다면 GPU에서 사용할 가치가 있지만, 선택 가능한 모델의 범위를 변화시키며 CPU에서는 자동으로 더 좋아지는 것이 아닙니다.

Reddit 내용은 짧게 마무리하겠습니다. 블로그에 전체 그래프, 실험, 하드웨어별 세부 분석 및 방법론에 대한 자세한 내용을 게시해 두었습니다.

Insights

Qwen 3.6 35B GGUF: GPU 및 CPU 환경에서의 NTP vs MTP 양자화 (Quantization) 결과

요약

핵심 포인트

댓글

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트