본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 21. 00:57

Qwen 3.6 35B GGUF: GPU 및 CPU 환경에서의 NTP vs MTP 양자화 (Quantization) 결과

요약

ByteShape에서 출시한 Qwen 3.6 35B GGUF 모델의 NTP와 MTP 양자화 방식에 대한 성능 비교 연구 결과입니다. 테스트 결과, NTP 방식에서는 무조건 낮은 bpw를 선택하기보다 메모리가 허용하는 한 가장 큰 모델을 사용하는 것이 품질과 속도 면에서 유리했습니다. MTP 방식은 GPU 환경에서 20-40%의 속도 향상을 제공하지만 메모리 점유율이 높아지는 트레이드오프가 존재하며, CPU 환경에서는 여전히 NTP가 권장됩니다.

핵심 포인트

  • NTP 모델 사용 시, 메모리 예산이 허용한다면 낮은 bpw보다 더 큰 모델을 선택하는 것이 품질과 속도 모두에서 유리함
  • MTP 방식은 GPU에서 약 20-40%의 생성 속도 향상을 제공하지만, 추가적인 메모리 점유율(Memory Footprint)을 고려해야 함
  • CPU 환경에서는 MTP의 성능 이점이 낮아 NTP 모델 사용을 권장함
  • 하드웨어 사양(VRAM 용량 등)에 따라 최적의 양자화 모델 선택이 달라질 수 있음

안녕하세요 r/LocalLLaMA 여러분,

저희는 ByteShape Qwen 3.6 35B GGUF 양자화 모델을 두 가지 계열인 표준 NTP (Next Token Prediction 또는 non-MTP)와 MTP로 출시했습니다.

블로그 / NTP 모델 다운로드 / MTP 모델 다운로드

요약 (TL;DR)

  • NTP의 경우, "사용 가능한 가장 큰 양자화 모델을 선택하라"는 전략이 놀라울 정도로 잘 작동했습니다.
  • 낮은 bpw (bits per weight)가 반드시 더 나은 것은 아니었습니다. 저희의 가장 큰 모델은 프롬프트 처리 (Prompt Processing) 및 토큰 생성 (Token Generation)을 포함하여 품질과 속도 면에서 극복하기 매우 어려웠습니다.
  • MTP는 보통 약 20–40% 정도의 실질적인 GPU 생성 속도 향상을 제공했지만, 추가적인 메모리 점유율 (Memory Footprint)로 인해 사용 가능한 모델이 달라질 수 있습니다.
  • MTP의 속도 향상은 워크로드 (Workload)에 크게 의존합니다.
  • 저희 테스트 결과 CPU MTP는 매력적이지 않았으므로, CPU에 대한 저희의 권장 사항은 여전히 NTP입니다.
  • 이번 출시에서는 MMLU를 제외했습니다. Qwen 3.6이 Full Precision (전정밀도) 상태에서 답변 형식 준수 문제를 보였기 때문에, 양자화 비교 신호로서 노이즈가 심할 수 있기 때문입니다.

이번 출시를 위해, 저희는 단순한 모델 공개를 넘어 일종의 소규모 하드웨어 연구에 가깝게 비교를 시도했습니다. RTX 4090, 5090, Pro 6000, 4080, 5060 Ti를 비롯하여 Intel i7, Intel Ultra 7, Ryzen 9, 그리고 Raspberry Pi 5에 걸쳐 원본 모델과 더 광범위한 양자화 변체들을 벤치마킹했습니다. 비교에 포함된 양자화 제작자(Quantizers)인 Bartowski, Unsloth, Mudler, AesSedai에게 감사를 표합니다. 저희가 모든 양자화 모델을 일일이 평가하는 데 시간을 쓴다면 여러분이 이 결과에 관심을 갖지 않을 수도 있기 때문에 (혹은 3.7 버전이 나오면 말이죠 ;), 각 제작자로부터 가장 추천되는 몇 가지 양자화 모델을 선정했습니다.

주요 NTP 결과는 다소 직관에 어긋났습니다. 보통은 더 낮은 bpw 양자화 모델이 속도 면에서 확실히 우세할 것이라고 예상합니다. 하지만 여기서는 저희가 출시한 가장 큰 변체 모델이 품질뿐만 아니라 프롬프트 처리 및 토큰 생성에서도 경쟁력을 유지하는 경우가 많았습니다. 따라서 bpw를 맹목적으로 최소화해서는 안 됩니다. 만약 더 큰 모델이 여러분의 메모리 및 컨텍스트 예산(Context Budget)에 맞다면, 그것이 여전히 더 나은 선택일 수 있습니다.

하드웨어 특이 사항, 특히 16GB 장치 및 Raspberry Pi 5에서의 예외 상황이 존재하므로, 모든 내용을 이곳에 압축하여 담기보다는 블로그에 전체 권장 사항과 그래프를 게시하였습니다.

MTP의 경우 트레이드오프 (Trade-off)가 다릅니다. GPU에서는 보통 약 20 - 40% 정도의 유의미한 생성 속도 향상을 확인했습니다 (이는 워크로드에 크게 의존하므로 직접 테스트가 필요합니다). 하지만 MTP는 런타임 메모리 (Runtime Memory) 사용량도 증가시키기 때문에, 16GB GPU에서는 저희의 컨텍스트 설정에서 더 큰 MTP 모델이 더 이상 실용적이지 않았으며, 이에 따라 GPU-2 MTP 모델을 사용 가능한 권장 모델로 선정했습니다. MTP 결과 또한 동일한 bpw (Bits Per Weight) 관찰 결과를 뒷받침합니다. 즉, 어떤 경우에는 더 큰 모델이 처리량 (Throughput) 측면에서 기본적으로 더 작은 모델을 따라잡기도 합니다.

저희 테스트에서 CPU MTP는 매력적이지 않았습니다. CPU에서는 프롬프트 처리 (Prompt Processing) 속도가 이미 느린데, MTP는 이를 더 악화시킵니다. 현재로서는 저희의 CPU 권장 사항은 NTP로 유지됩니다.

방법론 (Methodology) 참고 사항: 저희는 Qwen 3.5에서는 나타나지 않았던 Qwen 3.6에서의 답변 형식 준수 (Answer-format compliance) 문제를 발견했습니다. 여러 MMLU 사례에서, 프롬프트가 5-shot임에도 불구하고 풀 프리시전 (Full-precision) 모델이 정답은 알고 있는 듯 보이나 벤치마크에서 기대하는 엄격한 형식을 따르지 않는 현상이 나타났습니다. 이것은 양자화 아티팩트 (Quantization artifact)라기보다 베이스라인 모델 (Baseline-model) 자체의 동작이었기에, 이번 릴리스의 벤치마킹에서는 MMLU를 제외했습니다.

따라서, 중요한 요점은 다음과 같습니다:

이 모델의 경우, NTP 방식에서는 "사용 가능한 가장 큰 양자화 모델을 선택하라"는 전략이 놀라울 정도로 잘 작동했습니다. MTP는 메모리 여유 공간 (Memory Headroom)이 있다면 GPU에서 사용할 가치가 있지만, 선택 가능한 모델의 범위를 변화시키며 CPU에서는 자동으로 더 좋아지는 것이 아닙니다.

Reddit 내용은 짧게 마무리하겠습니다. 블로그에 전체 그래프, 실험, 하드웨어별 세부 분석 및 방법론에 대한 자세한 내용을 게시해 두었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0